原文服务方: 计算机应用研究       
摘要:
通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标,从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题模型LDA下对文本分类性能的影响,定量、定性地分析不同分词方法在网页和学术文献等不同类型文本的语料上进行分类的适用性及影响分类性能的原因。结果表明:三项指标可以有效指明分词方法对语料在分类时产生的影响,Ik Analyzer和ICTCLAS分词法分别受类别复杂度和类别聚类密度的影响较大,二元分词法受三个指标的作用相当,使其对于不同语料具有较好的适应性。对于学术文献类型的语料,使用二元分词法时的分类效果较好,F1值均在80%以上;而网页类型的语料对于各种分词法的适应性更强。尝试通过对语料进行信息度量而非单纯的实验来选择提高该语料分类性能的最佳分词方法,以期为网页和学术文献等不同类型的文本在基于LDA模型的分类系统中选择合适的中文分词方法提供参考。
推荐文章
中文文本分类方法综述
文本分类
分词
特征选择
独立于语种的文本分类方法
文本分类
n元语法模型
语种
基于中文文本分类的分词方法研究
文本分类
分词
查询
数据库
主题词
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 LD A模型下不同分词方法对文本分类性能的影响研究
来源期刊 计算机应用研究 学科
关键词 文本分类 LDA主题模型 语料度量 分词方法
年,卷(期) 2017,(1) 所属期刊栏目 算法研究探讨
研究方向 页码范围 62-66
页数 5页 分类号 TP391.1
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2017.01.012
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 高凡 武汉大学信息管理学院 13 58 5.0 7.0
2 李湘东 武汉大学信息管理学院 37 187 8.0 13.0
6 丁丛 武汉大学信息管理学院 7 37 3.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (58)
共引文献  (138)
参考文献  (12)
节点文献
引证文献  (19)
同被引文献  (46)
二级引证文献  (21)
1948(1)
  • 参考文献(0)
  • 二级参考文献(1)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(7)
  • 参考文献(1)
  • 二级参考文献(6)
2003(8)
  • 参考文献(1)
  • 二级参考文献(7)
2004(8)
  • 参考文献(1)
  • 二级参考文献(7)
2005(11)
  • 参考文献(1)
  • 二级参考文献(10)
2006(4)
  • 参考文献(1)
  • 二级参考文献(3)
2007(3)
  • 参考文献(0)
  • 二级参考文献(3)
2008(4)
  • 参考文献(1)
  • 二级参考文献(3)
2009(5)
  • 参考文献(1)
  • 二级参考文献(4)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(3)
  • 参考文献(2)
  • 二级参考文献(1)
2012(3)
  • 参考文献(0)
  • 二级参考文献(3)
2013(4)
  • 参考文献(2)
  • 二级参考文献(2)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(3)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(3)
  • 二级引证文献(0)
2017(3)
  • 引证文献(3)
  • 二级引证文献(0)
2018(16)
  • 引证文献(11)
  • 二级引证文献(5)
2019(14)
  • 引证文献(4)
  • 二级引证文献(10)
2020(7)
  • 引证文献(1)
  • 二级引证文献(6)
研究主题发展历程
节点文献
文本分类
LDA主题模型
语料度量
分词方法
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导