基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
通过对传统k-means算法优缺点的研究分析,提出一种改进的k-means聚类算法.随机初始化k/2个簇心,划分最大的簇并删除空簇,在更新簇心的同时判断簇心位置的合理性;及时对簇心做出修改,使得最后聚类出的k个簇中不会出现空簇;使用高斯核函数作为测量向量之间距离的方法,提高聚类的准确性.基于此改进的k-means算法,使用在不同网站上采集的文章作为数据源,并利用TF-IDF以及Word2Vec技术对文本进行向量化处理,进而完成对文本的聚类任务.与传统的k-means文本聚类相比,不仅提高了聚类的准确性,而且改善了传统k-means算法结果可能会出现空簇的缺陷.
推荐文章
基于改进k-means算法的文本聚类
k-means算法
共现词
词向量
相似性
基于高斯核函数的K-means聚类在分布式下的优化
高斯核函数
K-means聚类
核密度
分布式
基于改进K-Means算法的教学反思文本聚类研究
K-Means算法
文本聚类
教学反思
相似度
均值
基于聚类准则函数的改进K-means算法
K-means算法
聚类准则函数
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于核函数的改进k-means文本聚类
来源期刊 计算机应用与软件 学科 工学
关键词 k-means 高斯核函数 TF-IDF 文本聚类
年,卷(期) 2019,(9) 所属期刊栏目 算法
研究方向 页码范围 281-284,301
页数 5页 分类号 TP391.1
字数 3350字 语种 中文
DOI 10.3969/j.issn.1000-386x.2019.09.049
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 吴国文 东华大学计算机科学与技术学院 23 70 5.0 7.0
2 张国锋 东华大学计算机科学与技术学院 2 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (108)
共引文献  (321)
参考文献  (9)
节点文献
引证文献  (3)
同被引文献  (19)
二级引证文献  (0)
1953(1)
  • 参考文献(0)
  • 二级参考文献(1)
1957(1)
  • 参考文献(0)
  • 二级参考文献(1)
1958(1)
  • 参考文献(0)
  • 二级参考文献(1)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1974(1)
  • 参考文献(0)
  • 二级参考文献(1)
1975(1)
  • 参考文献(0)
  • 二级参考文献(1)
1978(1)
  • 参考文献(0)
  • 二级参考文献(1)
1979(2)
  • 参考文献(0)
  • 二级参考文献(2)
1981(1)
  • 参考文献(0)
  • 二级参考文献(1)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1984(1)
  • 参考文献(0)
  • 二级参考文献(1)
1985(2)
  • 参考文献(0)
  • 二级参考文献(2)
1987(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(3)
  • 参考文献(0)
  • 二级参考文献(3)
1998(4)
  • 参考文献(0)
  • 二级参考文献(4)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(2)
  • 参考文献(0)
  • 二级参考文献(2)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(6)
  • 参考文献(0)
  • 二级参考文献(6)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(6)
  • 参考文献(2)
  • 二级参考文献(4)
2008(6)
  • 参考文献(1)
  • 二级参考文献(5)
2009(5)
  • 参考文献(0)
  • 二级参考文献(5)
2010(4)
  • 参考文献(2)
  • 二级参考文献(2)
2011(9)
  • 参考文献(1)
  • 二级参考文献(8)
2012(19)
  • 参考文献(0)
  • 二级参考文献(19)
2013(12)
  • 参考文献(1)
  • 二级参考文献(11)
2014(6)
  • 参考文献(0)
  • 二级参考文献(6)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(3)
  • 引证文献(3)
  • 二级引证文献(0)
研究主题发展历程
节点文献
k-means
高斯核函数
TF-IDF
文本聚类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用与软件
月刊
1000-386X
31-1260/TP
大16开
上海市愚园路546号
4-379
1984
chi
出版文献量(篇)
16532
总下载数(次)
47
总被引数(次)
101489
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导