基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
微博数据的实时、大规模、短文本以及富含噪声等特征为话题检测带来新的挑战,传统向量空模型(VSM)表示文本无法很好地对其进行建模。基于此,提出一种基于主题模型的微博话题检测算法。首先,对微博数据构建文档词条矩阵和词语关联矩阵来提取主题词;然后,对主题词进行聚类,得到主题模型;最后,利用文本与主题模型相互匹配实现文本聚类,从而达到话题检测的目的。实验结果表示,该算法能有效地进行话题聚类并检测出话题,在最佳参数组合条件下,其各类别的平均F值达到95%以上。
推荐文章
基于时间特性的微博热门话题检测算法研究
微博
热门话题
时间因素
TimePageRank算法
用户兴趣
PageRank算法
基于隐主题分析的中文微博话题发现
中文微博
话题发现
隐主题模型
文本聚类
频繁项集挖掘
基于可区分语言模型的微博在线话题检测
话题检测
特征选择
微博
语言模型
可区分语言模型
基于 LSA和结构特性的微博话题检测
微博
话题检测
文本聚类
语义空间
潜在语义分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于主题模型的微博话题检测算法
来源期刊 网络与信息安全学报 学科 工学
关键词 话题检测 主题模型 文档词条矩阵 词语关联矩阵
年,卷(期) 2016,(5) 所属期刊栏目 学术论文
研究方向 页码范围 30-38
页数 9页 分类号 TP391
字数 6867字 语种 中文
DOI 10.11959/j.issn.2096-109x.2016.00049
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 谭骏珊 中南林业科技大学计算机与信息工程学院 31 174 7.0 12.0
2 黄华军 中南林业科技大学计算机与信息工程学院 12 160 6.0 12.0
3 秦姣华 中南林业科技大学计算机与信息工程学院 9 44 3.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (54)
共引文献  (103)
参考文献  (8)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(5)
  • 参考文献(0)
  • 二级参考文献(5)
2005(4)
  • 参考文献(0)
  • 二级参考文献(4)
2006(5)
  • 参考文献(0)
  • 二级参考文献(5)
2007(10)
  • 参考文献(0)
  • 二级参考文献(10)
2008(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(3)
  • 参考文献(0)
  • 二级参考文献(3)
2010(4)
  • 参考文献(0)
  • 二级参考文献(4)
2011(5)
  • 参考文献(0)
  • 二级参考文献(5)
2012(3)
  • 参考文献(0)
  • 二级参考文献(3)
2013(5)
  • 参考文献(4)
  • 二级参考文献(1)
2014(4)
  • 参考文献(2)
  • 二级参考文献(2)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
话题检测
主题模型
文档词条矩阵
词语关联矩阵
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
网络与信息安全学报
双月刊
2096-109X
10-1366/TP
16开
北京市丰台区成寿路11号邮电出版大厦8层
2015
chi
出版文献量(篇)
525
总下载数(次)
6
总被引数(次)
1380
论文1v1指导