作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
由于“互联网+”提出的,网络信息呈现爆炸的趋势.面对海量数据如何准确找到热点事件成了网民关注的话题.文章从实际应用出发,首先对每一篇文本选取5句话作为该文本关键句,然后用TF-IDF计算特征词值,特征向量选择时不考虑单个字的权重,再用K-means算法进行聚类.以新浪新闻为例,将环境、住房和违法三类话题共322篇文本作为测试语料进行聚类,聚类准备率达到70%以上,说明选取关键句比将整个文本作为聚类对象的聚类效果好.
推荐文章
基于Hadoop的灰狼优化K-means算法在主题发现的研究
文本聚类
K-means算法
主题发现
灰狼优化算法
分布式计算
基于Spark的并行K-means算法研究
Spark
K-means
PSO
迭代计算
k-means算法的研究与改进
聚类
划分方法
数据样本
阈值
K-means聚类算法的研究
数据挖掘
K-means算法
初始聚类中心
聚类分析
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于关键句的K-means算法在热点发现领域的研究与应用
来源期刊 贵州科学 学科 地球科学
关键词 文本挖掘 TF-IDF 聚类 K-means
年,卷(期) 2016,(3) 所属期刊栏目 大数据、信息科学
研究方向 页码范围 93-96
页数 4页 分类号 TP391.1|N37
字数 3770字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 顾俊 贵州师范大学数学与计算机科学学院 1 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (24)
共引文献  (214)
参考文献  (12)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(0)
  • 二级参考文献(2)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(3)
  • 参考文献(1)
  • 二级参考文献(2)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(5)
  • 参考文献(2)
  • 二级参考文献(3)
2009(3)
  • 参考文献(2)
  • 二级参考文献(1)
2010(4)
  • 参考文献(2)
  • 二级参考文献(2)
2012(4)
  • 参考文献(4)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
文本挖掘
TF-IDF
聚类
K-means
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
贵州科学
双月刊
1003-6563
52-1076/N
大16开
贵州省贵阳市陕西路1号
1983
chi
出版文献量(篇)
2122
总下载数(次)
1
论文1v1指导