原文服务方: 计算机应用研究       
摘要:
利用LDA模型进行文本相似度的计算考虑到了语义特征,但是存在词语数量多、未结合词语语义、未从文本层面挖掘和利用不同类别文本固有的领域间差异的缺点.针对以上问题,提出WMF_LDA(词语合并与过滤潜在狄利克雷分布)主题模型.将领域词和近义词进行统一化映射,并根据词性将文本进行过滤,最后再进行主题建模.实验证明,该方法使得建模时词语量大大减少,减少了建模过程的时间消耗,提高了最后的文本聚类的速度.并且与其他文本相似度方法相比,提出的方法在准确度上也有一定程度的提升.
推荐文章
一种PST_LDA中文文本相似度计算方法
词性标注
LDA模型
PST_LDA模型
文本相似度计算
基于LDA模型的文本相似度研究
文本挖掘
LDA模型
Gibbs抽样
文本相似度
基于LDA主题模型的中医药方剂相似度计算
LDA主题模型
古布斯采样
中医药信息
方剂相似度
基于词汇语义信息的文本相似度计算
文本相似度
词向量
词频—逆文档频率
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于WMF_LDA主题模型的文本相似度计算
来源期刊 计算机应用研究 学科
关键词 词语语义 词语合并 词性筛选 文本相似度
年,卷(期) 2019,(10) 所属期刊栏目 算法研究探讨
研究方向 页码范围 2916-2919,2951
页数 5页 分类号 TP391.1
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2018.04.0219
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杜彦辉 中国人民公安大学信息技术与网络安全学院 57 301 11.0 14.0
5 张璐 中国人民公安大学信息技术与网络安全学院 68 163 7.0 10.0
6 芦天亮 中国人民公安大学信息技术与网络安全学院 44 78 5.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (76)
共引文献  (267)
参考文献  (13)
节点文献
引证文献  (3)
同被引文献  (8)
二级引证文献  (0)
1973(2)
  • 参考文献(0)
  • 二级参考文献(2)
1980(1)
  • 参考文献(0)
  • 二级参考文献(1)
1986(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(2)
  • 参考文献(0)
  • 二级参考文献(2)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(8)
  • 参考文献(1)
  • 二级参考文献(7)
2005(3)
  • 参考文献(0)
  • 二级参考文献(3)
2006(5)
  • 参考文献(0)
  • 二级参考文献(5)
2007(6)
  • 参考文献(0)
  • 二级参考文献(6)
2008(6)
  • 参考文献(1)
  • 二级参考文献(5)
2009(5)
  • 参考文献(1)
  • 二级参考文献(4)
2010(8)
  • 参考文献(0)
  • 二级参考文献(8)
2011(6)
  • 参考文献(1)
  • 二级参考文献(5)
2012(9)
  • 参考文献(0)
  • 二级参考文献(9)
2013(7)
  • 参考文献(1)
  • 二级参考文献(6)
2014(3)
  • 参考文献(0)
  • 二级参考文献(3)
2015(4)
  • 参考文献(2)
  • 二级参考文献(2)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(3)
  • 参考文献(3)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(3)
  • 引证文献(3)
  • 二级引证文献(0)
研究主题发展历程
节点文献
词语语义
词语合并
词性筛选
文本相似度
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导