基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
提出一种在大规模微博客短文本数据集上发现新闻话题的方法.利用隐主题分析技术,解决短文本相似度度量的问题.在每个时间窗口内,根据新闻的特点选取出最有可能谈论新闻事件的微博客文本,然后用两层的K均值和层次聚类的混合聚类方法,对这个时间窗口内的那些最有可能谈论新闻事件的微博文本进行聚类,从而检测出新闻话题.此方法能较好地解决微博客短文本的数据稀疏性及数据量巨大的问题.实验证明该算法的有效性.
推荐文章
基于隐主题分析的中文微博话题发现
中文微博
话题发现
隐主题模型
文本聚类
频繁项集挖掘
基于SOM聚类的微博话题发现
话题发现
词向量模型
文本相似度
短文本
SOM聚类
基于隐主题分析的中文微博话题发现
中文微博
话题发现
隐主题模型
文本聚类
频繁项集挖掘
多特征融合文本聚类的新闻话题发现模型
新闻话题
多特征融合
潜在狄利克雷分配
向量空间模型
主题空间模型
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于隐主题分析和文本聚类的微博客中新闻话题的发现
来源期刊 模式识别与人工智能 学科 工学
关键词 微博客 短文本 隐主题模型 话题发现 混合聚类
年,卷(期) 2012,(3) 所属期刊栏目 论文与报告
研究方向 页码范围 382-387
页数 分类号 TP3
字数 5250字 语种 中文
DOI 10.3969/j.issn.1003-6059.2012.03.004
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杨青 中国科学院自动化研究所模式识别国家重点实验室 80 2332 26.0 47.0
2 项亮 中国科学院自动化研究所模式识别国家重点实验室 3 175 3.0 3.0
3 路荣 中国科学院自动化研究所模式识别国家重点实验室 3 230 3.0 3.0
4 刘明荣 中国科学院自动化研究所模式识别国家重点实验室 1 119 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (15)
共引文献  (149)
参考文献  (5)
节点文献
引证文献  (119)
同被引文献  (214)
二级引证文献  (301)
1990(1)
  • 参考文献(1)
  • 二级参考文献(0)
2000(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(4)
  • 参考文献(1)
  • 二级参考文献(3)
2004(3)
  • 参考文献(1)
  • 二级参考文献(2)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(6)
  • 参考文献(1)
  • 二级参考文献(5)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2013(8)
  • 引证文献(7)
  • 二级引证文献(1)
2014(26)
  • 引证文献(17)
  • 二级引证文献(9)
2015(61)
  • 引证文献(24)
  • 二级引证文献(37)
2016(71)
  • 引证文献(22)
  • 二级引证文献(49)
2017(69)
  • 引证文献(16)
  • 二级引证文献(53)
2018(79)
  • 引证文献(20)
  • 二级引证文献(59)
2019(80)
  • 引证文献(10)
  • 二级引证文献(70)
2020(26)
  • 引证文献(3)
  • 二级引证文献(23)
研究主题发展历程
节点文献
微博客
短文本
隐主题模型
话题发现
混合聚类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
模式识别与人工智能
月刊
1003-6059
34-1089/TP
16开
中国科学院合肥智能机械研究所安徽合肥董铺岛合肥1130信箱
26-69
1989
chi
出版文献量(篇)
2928
总下载数(次)
8
总被引数(次)
30919
论文1v1指导