基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因初始中心点的不确定性,易陷入局部最优解的问题。本算法在Canopy(罩盖)中完成K-means聚类,并在Canopy间完成簇的合并,聚类效果稳定,迭代次数少。同时,结合MapReduce分布式计算模型,给出改进后算法的并行化设计方法和策略,进一步通过改进相似度度量方法,将该方法用于文本聚类中。实验结果证明该算法具有良好的准确率和扩展性。
推荐文章
一种改进K-means聚类算法的MapReduce并行化实现
MapReduce模型
K-means
分布式聚类
基于Spark的改进K-means算法的并行实现
聚类算法
简化轮廓系数
形态学相似距离
相似性度量
基于Hash改进的k-means算法并行化设计
海量数据
Hadoop
Hash
并行k-means聚类
中心选取
k-means聚类算法的MapReduce并行化实现
云计算
并行计算
MapReduce模型
数据挖掘
k-means聚类算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种K-means改进算法的并行化实现与应用
来源期刊 电子科技大学学报 学科 工学
关键词 canopy算法 Hadoop MapReduce 并行K-means 文本聚类
年,卷(期) 2017,(1) 所属期刊栏目 计算机工程与应用
研究方向 页码范围 61-68
页数 8页 分类号 TP311
字数 5738字 语种 中文
DOI 10.3969/j.issn.1001-0548.2017.01.010
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 雷航 电子科技大学信息与软件工程学院 92 1434 17.0 35.0
2 唐雪飞 电子科技大学信息与软件工程学院 25 418 11.0 20.0
4 李晓瑜 电子科技大学信息与软件工程学院 19 150 5.0 12.0
7 俞丽颖 电子科技大学信息与软件工程学院 1 47 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (84)
共引文献  (1079)
参考文献  (16)
节点文献
引证文献  (47)
同被引文献  (149)
二级引证文献  (76)
1970(1)
  • 参考文献(0)
  • 二级参考文献(1)
1974(2)
  • 参考文献(0)
  • 二级参考文献(2)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(6)
  • 参考文献(2)
  • 二级参考文献(4)
2000(5)
  • 参考文献(0)
  • 二级参考文献(5)
2002(4)
  • 参考文献(0)
  • 二级参考文献(4)
2003(7)
  • 参考文献(0)
  • 二级参考文献(7)
2004(4)
  • 参考文献(0)
  • 二级参考文献(4)
2005(4)
  • 参考文献(0)
  • 二级参考文献(4)
2006(6)
  • 参考文献(0)
  • 二级参考文献(6)
2007(15)
  • 参考文献(1)
  • 二级参考文献(14)
2008(13)
  • 参考文献(3)
  • 二级参考文献(10)
2009(5)
  • 参考文献(1)
  • 二级参考文献(4)
2010(5)
  • 参考文献(2)
  • 二级参考文献(3)
2011(10)
  • 参考文献(1)
  • 二级参考文献(9)
2012(5)
  • 参考文献(2)
  • 二级参考文献(3)
2013(2)
  • 参考文献(0)
  • 二级参考文献(2)
2014(4)
  • 参考文献(4)
  • 二级参考文献(0)
2017(11)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(9)
  • 二级引证文献(2)
2017(11)
  • 引证文献(9)
  • 二级引证文献(2)
2018(47)
  • 引证文献(24)
  • 二级引证文献(23)
2019(41)
  • 引证文献(7)
  • 二级引证文献(34)
2020(24)
  • 引证文献(7)
  • 二级引证文献(17)
研究主题发展历程
节点文献
canopy算法
Hadoop
MapReduce
并行K-means
文本聚类
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子科技大学学报
双月刊
1001-0548
51-1207/T
大16开
成都市成华区建设北路二段四号
62-34
1959
chi
出版文献量(篇)
4185
总下载数(次)
13
总被引数(次)
36111
论文1v1指导