基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
新闻话题聚类在舆情监督、热点话题发现、突发事件实时追踪等领域有着重要的应用.基于K-means的文本聚类算法由于算法简单易实现,时空复杂度低,聚类效果优异等特点被广泛用作新闻话题聚类算法.但传统的K-means算法又具有其局限性,如对初始中心点的选择敏感和用户必须自定义分组K等,导致算法收敛于局部最优而无法得到全局最优解.针对传统的K-means算法中初始聚类中心点随机选择导致聚类结果不稳定的问题,提出了一种改进的K-means算法用于新闻话题检测,该算法基于新闻报道相似性选择初始聚类中心点,保证各新闻话题集群具有很好的区分度.并在此基础上,根据新闻话题覆盖率自动确定话题集群个数K.实验结果表明,改进后的算法能够生成稳定的,高质量的话题集群.
推荐文章
基于改进BA算法的K-means聚类
蝙蝠算法
莱维飞行
惯性权重
limit阈值
K-means算法
基于Kd树改进的高效K-means聚类算法
k-means算法
簇心
kd树
剪枝策略
CK-means算法
基于改进引力搜索算法的K-means聚类
K-means算法
引力搜索算法
引力系数衰减因子
免疫克隆选择算法
K-means聚类算法的研究
数据挖掘
K-means算法
初始聚类中心
聚类分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于话题相似性改进的K-means新闻话题聚类
来源期刊 计算机与数字工程 学科 工学
关键词 K-means算法 新闻话题检测 舆情监督 文本相似性 话题覆盖率
年,卷(期) 2017,(8) 所属期刊栏目 系统结构
研究方向 页码范围 1560-1565
页数 6页 分类号 TP301.6
字数 5549字 语种 中文
DOI 10.3969/j.issn.1672-9722.2017.08.021
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 徐建 南京理工大学计算机科学与工程学院 62 241 8.0 12.0
2 陈龙 南京理工大学计算机科学与工程学院 13 41 4.0 5.0
3 于亚男 南京理工大学计算机科学与工程学院 1 4 1.0 1.0
4 胡建洪 南京理工大学计算机科学与工程学院 3 6 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (97)
共引文献  (70)
参考文献  (11)
节点文献
引证文献  (4)
同被引文献  (7)
二级引证文献  (0)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1985(1)
  • 参考文献(0)
  • 二级参考文献(1)
1988(2)
  • 参考文献(0)
  • 二级参考文献(2)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(2)
  • 参考文献(0)
  • 二级参考文献(2)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(5)
  • 参考文献(0)
  • 二级参考文献(5)
2004(3)
  • 参考文献(0)
  • 二级参考文献(3)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(8)
  • 参考文献(0)
  • 二级参考文献(8)
2009(10)
  • 参考文献(0)
  • 二级参考文献(10)
2010(6)
  • 参考文献(0)
  • 二级参考文献(6)
2011(11)
  • 参考文献(1)
  • 二级参考文献(10)
2012(16)
  • 参考文献(1)
  • 二级参考文献(15)
2013(13)
  • 参考文献(0)
  • 二级参考文献(13)
2014(8)
  • 参考文献(4)
  • 二级参考文献(4)
2015(5)
  • 参考文献(4)
  • 二级参考文献(1)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(3)
  • 引证文献(3)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
K-means算法
新闻话题检测
舆情监督
文本相似性
话题覆盖率
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与数字工程
月刊
1672-9722
42-1372/TP
大16开
武汉市东湖新技术开发区凤凰产业园藏龙北路1号
1973
chi
出版文献量(篇)
9945
总下载数(次)
28
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导