基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对传统话题检测方法不能很好处理微博中用语不规范、随意性强、指代不明确以及存在大量网络用语的问题,提出了一种基于潜在狄利克雷分配(LDA)模型的主题树检测方法.首先,运用自然语言处理(NLP)中增大信息熵的方法将相关微博整理成一棵主题树,配合狄利克雷先验α与经验值β随主题数目动态变化的设计思想,结合该模型独特的双重概率统计模式,实现了对文本中每个词“贡献度”的统计,提前处理掉干扰信息,排除垃圾数据对话题检测的影响;然后,利用该“贡献度”作为空间向量模型(VSM)改进后的参数值计算文档间相似度来提取突发话题,达到提高突发话题检测精准度的目的.提出的基于LDA模型的主题树检测方法从F值比对与人工检测两个角度进行了相关实验,实验数据显示该算法不仅可以检测到突发话题,而且获得的结果与知网模型和TF-IDF算法相比分别高出3%、7%,且更符合人的判断逻辑.
推荐文章
基于动态窗口的微博突发话题检测方法
微博
突发话题
动态窗口
词对加速度
非负矩阵分解
微博突发话题检测方法研究
微博
突发话题
滑动窗口
语义相似度
空间向量模型
话题检测与跟踪
基于时间序列分析的微博突发话题检测方法
突发话题
微博
突发特征
时序分析
基于评论树的微博社区热门话题检测方法
微博社区
热门话题
过滤
评论树
话题热度评价模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于主题树的微博突发话题检测
来源期刊 计算机应用 学科 工学
关键词 潜在狄利克雷分配 主题树 语义相似度 空间向量模型 话题检测
年,卷(期) 2014,(8) 所属期刊栏目 人工智能
研究方向 页码范围 2332-2335
页数 4页 分类号 TP391|TP18
字数 4370字 语种 中文
DOI 10.11772/j.issn.1001-9081.2014.08.2332
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 邵良杉 辽宁工程技术大学系统工程研究所 189 1464 18.0 27.0
2 邱云飞 辽宁工程技术大学软件学院 70 620 13.0 22.0
3 郭弥纶 辽宁工程技术大学软件学院 1 12 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (80)
共引文献  (424)
参考文献  (12)
节点文献
引证文献  (12)
同被引文献  (37)
二级引证文献  (32)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1977(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(10)
  • 参考文献(0)
  • 二级参考文献(10)
2004(6)
  • 参考文献(0)
  • 二级参考文献(6)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(9)
  • 参考文献(0)
  • 二级参考文献(9)
2007(10)
  • 参考文献(1)
  • 二级参考文献(9)
2008(11)
  • 参考文献(0)
  • 二级参考文献(11)
2009(10)
  • 参考文献(1)
  • 二级参考文献(9)
2010(5)
  • 参考文献(2)
  • 二级参考文献(3)
2011(5)
  • 参考文献(2)
  • 二级参考文献(3)
2012(5)
  • 参考文献(4)
  • 二级参考文献(1)
2013(2)
  • 参考文献(2)
  • 二级参考文献(0)
2014(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(4)
  • 引证文献(4)
  • 二级引证文献(0)
2016(7)
  • 引证文献(3)
  • 二级引证文献(4)
2017(11)
  • 引证文献(2)
  • 二级引证文献(9)
2018(10)
  • 引证文献(1)
  • 二级引证文献(9)
2019(10)
  • 引证文献(1)
  • 二级引证文献(9)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
潜在狄利克雷分配
主题树
语义相似度
空间向量模型
话题检测
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用
月刊
1001-9081
51-1307/TP
大16开
成都237信箱
62-110
1981
chi
出版文献量(篇)
20189
总下载数(次)
40
论文1v1指导