基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
LDA可以实现大量数据集合中潜在主题的挖掘与文本信息的分类,模型假设,如果文档与某主题相关,那么文档中的所有单词都与该主题相关。然而,在面对实际环境中大规模的数据,这会导致主题范围的扩大,不能对主题单词的潜在语义进行准确定位,限制了模型的鲁棒性和有效性。本文针对LDA的这一弊端提出了新的文档主题分类算法gLDA,该模型通过增加主题类别分布参数确定主题的产生范围,提高分类的准确性。 Reuters-21578数据集与复旦大学文本语料库中的数据结果证明,相对于传统的主题分类模型,该模型的分类效果得到了一定程度的提高。
推荐文章
基于LDA-wSVM模型的文本分类研究
文本分类
潜在狄利克雷分布
支持向量机
权重计算
吉普斯抽样
基于免疫算法的文本分类研究
文本分类
免疫
克隆选择
抗体浓度
基于词共现的文本分类算法
词共现
TF-IDF
向量空间模型
特征选择
KNN文本分类算法研究
文本分类
KNN
向量空间模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于LDA的文本分类算法
来源期刊 天津理工大学学报 学科 工学
关键词 主题模型 LDA 文本分类
年,卷(期) 2014,(4) 所属期刊栏目
研究方向 页码范围 28-31
页数 4页 分类号 TP18
字数 2625字 语种 中文
DOI 10.3969/j.issn.1673-095X.2014.04.007
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 何锦群 天津理工大学计算机与通信工程学院移动计算与数据挖掘重点实验室计算机视觉与系统教育部重点实验室 1 3 1.0 1.0
2 刘朋杰 天津理工大学计算机与通信工程学院移动计算与数据挖掘重点实验室计算机视觉与系统教育部重点实验室 1 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (10)
共引文献  (38)
参考文献  (7)
节点文献
引证文献  (3)
同被引文献  (0)
二级引证文献  (0)
1990(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(3)
  • 参考文献(1)
  • 二级参考文献(2)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(1)
  • 二级参考文献(1)
2007(2)
  • 参考文献(2)
  • 二级参考文献(0)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
主题模型
LDA
文本分类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
天津理工大学学报
双月刊
1673-095X
12-1374/N
大16开
天津市西青区宾水西道391号
1984
chi
出版文献量(篇)
2405
总下载数(次)
4
总被引数(次)
13943
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导