原文服务方: 计算机应用研究       
摘要:
针对LDA建模结果较泛化、子话题间文本相似度较高等问题,提出一种基于狄利克雷分配模型(LDA)和知网(HowNet)语义词典相结合的多粒度子话题划分方法(MGH-LDA).首先采用LDA模型对不同新闻源的新闻集合进行初划分,并根据文档贡献度获得相同新闻话题的文档集合;其次在TF-IDF模型基础上获取多粒度粗细特征,作为核心词特征集合来表征新闻文档,采用知网语义词典来计算新闻文档之间的相似度;最后通过single-pass增量聚类算法进行新闻文档的聚类,实现子话题划分.通过在真实新闻数据集上的实验,验证了该方法能有效地提高热点新闻话题子话题划分的准确率.
推荐文章
一种融合词序信息的多粒度文本话题情感联合模型
话题模型
文本情感分析
联合模型
词序信息
基于节点重要性的 LDA 社会网络话题模型研究
LDA
话题模型
社会网络
流行性组件
基于 LDA 模型的 Ad hoc 信息检索方法研究
信息检索
语言模型
文档模型
话题模型
基于LDA模型的新闻话题的演化
潜在狄利克雷分配模型
话题关联
话题演化
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于LDA模型和HowNet的多粒度子话题划分方法
来源期刊 计算机应用研究 学科
关键词 新闻报道 子话题划分 多粒度 狄利克雷分配模型 语义相似度计算
年,卷(期) 2015,(6) 所属期刊栏目 算法研究探讨
研究方向 页码范围 1625-1629
页数 5页 分类号 TP391.4
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2015.06.006
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李湘东 武汉大学信息管理学院 37 187 8.0 13.0
5 巴志超 武汉大学信息管理学院 35 261 10.0 15.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (61)
共引文献  (352)
参考文献  (16)
节点文献
引证文献  (17)
同被引文献  (52)
二级引证文献  (34)
1980(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(9)
  • 参考文献(1)
  • 二级参考文献(8)
2004(10)
  • 参考文献(0)
  • 二级参考文献(10)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(5)
  • 参考文献(2)
  • 二级参考文献(3)
2007(6)
  • 参考文献(1)
  • 二级参考文献(5)
2008(6)
  • 参考文献(3)
  • 二级参考文献(3)
2009(10)
  • 参考文献(0)
  • 二级参考文献(10)
2010(4)
  • 参考文献(1)
  • 二级参考文献(3)
2011(8)
  • 参考文献(3)
  • 二级参考文献(5)
2012(6)
  • 参考文献(1)
  • 二级参考文献(5)
2013(4)
  • 参考文献(4)
  • 二级参考文献(0)
2015(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2015(2)
  • 引证文献(2)
  • 二级引证文献(0)
2016(7)
  • 引证文献(4)
  • 二级引证文献(3)
2017(14)
  • 引证文献(5)
  • 二级引证文献(9)
2018(9)
  • 引证文献(3)
  • 二级引证文献(6)
2019(12)
  • 引证文献(2)
  • 二级引证文献(10)
2020(7)
  • 引证文献(1)
  • 二级引证文献(6)
研究主题发展历程
节点文献
新闻报道
子话题划分
多粒度
狄利克雷分配模型
语义相似度计算
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导