基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为解决传统话题识别与跟踪方法在处理微博数据时存在的高维、稀疏等问题,提出了一种网络微博话题主题词抽取模型和改进聚类方法.首先,对微博数据以特征词汇选择的方式进行了改进,优先选择时间片内词频统计较高(包含信息量较大)的词汇作为特征词汇,从而降低向量空间的维数,提升运行效率;其次,采用LDA模型来进行微博数据的文本表示;最后,采用基于遗传优化的K-means算法进行聚类分析,提高了聚类结果的准确率和稳定性.网络微博数据实验结果验证了提出方法的有效性,表明其可解决数据处理稀疏、高维的问题.相比其他聚类算法,提出方法在话题识别的多个性能指标上均表现良好,并能准确展示出话题的动态变化.
推荐文章
基于SCIR的微博舆情话题传播模型研究
微博
舆情话题
传播模型
传染病动力学
基于叙词表的农业舆情话题发现算法研究
叙词表
农业舆情话题
语义相似度
无向图
聚类
基于朴素贝叶斯网络的微博话题追踪技术研究
朴素贝叶斯网络
微博
话题追踪
基于MUK-means算法的微博舆情意见领袖群识别
微博舆情
MUR
MUK-means
意见领袖群
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于文本聚类的网络微博舆情话题识别与追踪技术研究
来源期刊 重庆理工大学学报(自然科学版) 学科 工学
关键词 微博舆情 本文聚类 K-means 主题词 主题模型 聚类算法 话题识别
年,卷(期) 2019,(9) 所属期刊栏目 信息·计算机
研究方向 页码范围 176-181
页数 6页 分类号 TP393
字数 2846字 语种 中文
DOI 10.3969/j.issn.1674-8425(z).2019.09.025
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 闫俊伢 山西大学商务学院信息学院 50 292 7.0 16.0
2 马尚才 山西财经大学信息管理学院 16 76 4.0 8.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (46)
共引文献  (41)
参考文献  (12)
节点文献
引证文献  (2)
同被引文献  (7)
二级引证文献  (0)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(3)
  • 参考文献(0)
  • 二级参考文献(3)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(6)
  • 参考文献(0)
  • 二级参考文献(6)
2011(7)
  • 参考文献(0)
  • 二级参考文献(7)
2012(9)
  • 参考文献(0)
  • 二级参考文献(9)
2013(4)
  • 参考文献(0)
  • 二级参考文献(4)
2014(8)
  • 参考文献(1)
  • 二级参考文献(7)
2016(7)
  • 参考文献(6)
  • 二级参考文献(1)
2017(9)
  • 参考文献(3)
  • 二级参考文献(6)
2018(3)
  • 参考文献(2)
  • 二级参考文献(1)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
微博舆情
本文聚类
K-means
主题词
主题模型
聚类算法
话题识别
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
重庆理工大学学报(自然科学版)
月刊
1674-8425
50-1205/T
重庆市九龙坡区杨家坪
chi
出版文献量(篇)
7998
总下载数(次)
17
总被引数(次)
41083
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导