原文服务方: 计算机应用研究       
摘要:
针对如何快速发现微博中的热点话题,提出了一种具有更高准确率的中文微博话题检测方案。首先,优化了微博文本的特征选择,经过分析获得的这些博文特征有助于不同词性对话题表达的重要性;其次,在此基础上,提出了通过计算博文阈值的方法,将零散主题的博文作为噪声过滤,并用来降低博文集的维度;在现有Single-Pass 聚类算法的基础上,引入了主题词的概念,根据中心向量的特征权重选择主题词,最终形成一种孤立点预处理与 Single-Pass 相结合的微博话题检测方法。实验结果表明,相比传统的 Single-Pass 算法,该方法有效去除了数据集的大部分孤立点,不仅具有较低的漏检率和误检率,而且在时间损耗方面表现更佳。
推荐文章
基于LDA模型和多层聚类的微博话题检测
LDA模型
话题检测
改进的Single-Pass聚类
层次聚类
微博突发话题检测方法研究
微博
突发话题
滑动窗口
语义相似度
空间向量模型
话题检测与跟踪
周期分类和Single-Pass聚类相结合的话题识别与跟踪方法
话题识别与跟踪
增量聚类
文本分类
k-最近邻方法分类
基于Single-Pass的在线话题检测改进算法
网络舆情
Single-Pass
相似度计算
食品安全
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 孤立点预处理和 Single-Pass 聚类结合的微博话题检测方法
来源期刊 计算机应用研究 学科
关键词 微博 热点话题 增量聚类 孤立点 话题检测
年,卷(期) 2016,(8) 所属期刊栏目 算法研究探讨
研究方向 页码范围 2294-2297
页数 4页 分类号 TP391
字数 语种 中文
DOI 10.3969/j.issn.1001-3695.2016.08.012
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杨长春 常州大学信息科学与工程学院 52 366 10.0 17.0
2 叶施仁 常州大学信息科学与工程学院 25 214 6.0 14.0
3 朱明峰 常州大学信息科学与工程学院 3 26 3.0 3.0
4 杨英 常州大学信息科学与工程学院 1 18 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (79)
共引文献  (181)
参考文献  (11)
节点文献
引证文献  (18)
同被引文献  (76)
二级引证文献  (22)
1975(2)
  • 参考文献(0)
  • 二级参考文献(2)
1987(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(2)
  • 参考文献(1)
  • 二级参考文献(1)
1990(2)
  • 参考文献(0)
  • 二级参考文献(2)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(5)
  • 参考文献(0)
  • 二级参考文献(5)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(4)
  • 参考文献(0)
  • 二级参考文献(4)
2006(8)
  • 参考文献(0)
  • 二级参考文献(8)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(8)
  • 参考文献(1)
  • 二级参考文献(7)
2009(8)
  • 参考文献(0)
  • 二级参考文献(8)
2010(14)
  • 参考文献(1)
  • 二级参考文献(13)
2011(7)
  • 参考文献(3)
  • 二级参考文献(4)
2012(5)
  • 参考文献(2)
  • 二级参考文献(3)
2013(4)
  • 参考文献(1)
  • 二级参考文献(3)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(4)
  • 引证文献(4)
  • 二级引证文献(0)
2018(10)
  • 引证文献(8)
  • 二级引证文献(2)
2019(14)
  • 引证文献(4)
  • 二级引证文献(10)
2020(11)
  • 引证文献(1)
  • 二级引证文献(10)
研究主题发展历程
节点文献
微博
热点话题
增量聚类
孤立点
话题检测
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导