基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务.学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群.鉴于此,提出一种新的聚类模型——主题句向量模型(Doc2vec-LDA,Doc-LDA),该模型通过将LDA主题模型(Latent Dirichlet Allocation)和句向量模型融合(Doc2vec),不仅使得在模型训练过程中既能利用整个语料库的信息,而且还利用Paragraph Vector的局部语义空间信息完善LDA的隐性语义信息.实验采用爬取到的知网摘要文本作为数据集,选用K-Means聚类算法对各模型的摘要文本进行效果比较.实验结果表明,基于Doc-LDA模型的聚类效果优于LDA、Word2vec、LDA+Word2vec模型.
推荐文章
Doc2vec在薪水预测中的应用研究
薪水预测
doc2vec
文本特征
基于WBLDA的学术文献摘要主题聚类
主题聚类
增大词频特征提取法
优化主题数目作者层主题聚类模型
贝叶斯准则
基于LDA和word2vec的英文作文跑题检测
作文跑题检测
向量空间模型
潜在狄利克雷分配
词语间语义关系
基于词向量Doc2vec的双向LSTM情感分析
词嵌入
Word2vec
Doc2vec
LSTM
双向LSTM
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于LDA模型和Doc2vec的学术摘要聚类方法
来源期刊 计算机工程与应用 学科 工学
关键词 短文本聚类 LDA模型 Doc2vec模型 学术摘要
年,卷(期) 2020,(6) 所属期刊栏目 模式识别与人工智能
研究方向 页码范围 180-185
页数 6页 分类号 TP391
字数 6432字 语种 中文
DOI 10.3778/j.issn.1002-8331.1905-0148
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 胡亚琦 兰州交通大学电子与信息工程学院 21 46 4.0 6.0
2 张卫卫 兰州交通大学电子与信息工程学院 2 0 0.0 0.0
3 翟广宇 兰州理工大学经济管理学院 1 0 0.0 0.0
4 刘志鹏 兰州交通大学电子与信息工程学院 2 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (59)
共引文献  (103)
参考文献  (10)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1954(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1979(2)
  • 参考文献(0)
  • 二级参考文献(2)
1990(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(10)
  • 参考文献(2)
  • 二级参考文献(8)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(4)
  • 参考文献(1)
  • 二级参考文献(3)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(4)
  • 参考文献(0)
  • 二级参考文献(4)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(3)
  • 参考文献(0)
  • 二级参考文献(3)
2013(7)
  • 参考文献(0)
  • 二级参考文献(7)
2014(4)
  • 参考文献(0)
  • 二级参考文献(4)
2015(6)
  • 参考文献(2)
  • 二级参考文献(4)
2016(3)
  • 参考文献(1)
  • 二级参考文献(2)
2017(3)
  • 参考文献(0)
  • 二级参考文献(3)
2018(4)
  • 参考文献(4)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
短文本聚类
LDA模型
Doc2vec模型
学术摘要
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与应用
半月刊
1002-8331
11-2127/TP
大16开
北京619信箱26分箱
82-605
1964
chi
出版文献量(篇)
39068
总下载数(次)
102
总被引数(次)
390217
相关基金
中国博士后科学基金
英文译名:China Postdoctoral Science Foundation
官方网址:http://www.chinapostdoctor.org.cn/index.asp
项目类型:
学科类型:
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导