基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对传统K-means算法在处理海量数据时存在距离计算瓶颈及因迭代计算次数增加导致内存不足的问题,提出了一种基于Spark框架的SBTICK-means (Spark Based Triangle Inequality Canopy-K-means)并行聚类算法.为了更好地解决K值选取的盲目性和随机性的问题,该算法利用Canopy进行预处理得到初始聚类中心点和K值;在K-means迭代计算过程中进一步利用距离三角不等式定理减少冗余计算、加快聚类速度,结合Spark框架实现算法的并行化,充分利用Spark的内存计算优势提高数据的处理速度,缩减算法的整体运行时间.实验结果表明,SBTICK-means算法在保证准确率的同时大大提高了聚类效率,与传统的K-means算法、Canopy-K-means算法和基于MapReduce框架下的该算法相比,在加速比、扩展比以及运行速率上都有一定的提高,从而更适合应用于海量数据的聚类研究.
推荐文章
基于Spark的密度聚类算法并行化研究
DBSCAN
聚类
Spark
并行化
基于Spark的层次聚类算法的并行化研究
Spark
层次聚类
CURE
RDD
并行化
基于Spark并行的密度峰值聚类算法
聚类
密度峰值
空间划分
并行
Spark
基于Spark的模糊聚类算法实现及其应用
聚类分析
模糊C均值
Spark
入侵检测
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark框架的并行聚类算法
来源期刊 计算机技术与发展 学科 工学
关键词 K-means Spark 大数据 Hadoop MapReduce
年,卷(期) 2017,(5) 所属期刊栏目 智能、算法、系统工程
研究方向 页码范围 97-101
页数 5页 分类号 TP301.6
字数 4386字 语种 中文
DOI 10.3969/j.issn.1673-629X.2017.05.021
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 倪建成 曲阜师范大学软件学院 31 137 7.0 10.0
2 姚彬修 曲阜师范大学信息科学与工程学院 7 84 5.0 7.0
3 于苹苹 曲阜师范大学信息科学与工程学院 7 84 5.0 7.0
4 曹博 曲阜师范大学信息科学与工程学院 7 84 5.0 7.0
5 李淋淋 曲阜师范大学信息科学与工程学院 6 81 5.0 6.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (91)
共引文献  (881)
参考文献  (10)
节点文献
引证文献  (5)
同被引文献  (29)
二级引证文献  (9)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1974(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(4)
  • 参考文献(1)
  • 二级参考文献(3)
2000(5)
  • 参考文献(0)
  • 二级参考文献(5)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(5)
  • 参考文献(0)
  • 二级参考文献(5)
2005(4)
  • 参考文献(0)
  • 二级参考文献(4)
2006(6)
  • 参考文献(0)
  • 二级参考文献(6)
2007(5)
  • 参考文献(0)
  • 二级参考文献(5)
2008(6)
  • 参考文献(1)
  • 二级参考文献(5)
2009(13)
  • 参考文献(0)
  • 二级参考文献(13)
2010(6)
  • 参考文献(0)
  • 二级参考文献(6)
2011(13)
  • 参考文献(0)
  • 二级参考文献(13)
2012(9)
  • 参考文献(2)
  • 二级参考文献(7)
2013(5)
  • 参考文献(1)
  • 二级参考文献(4)
2014(4)
  • 参考文献(1)
  • 二级参考文献(3)
2015(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(3)
  • 引证文献(2)
  • 二级引证文献(1)
2019(10)
  • 引证文献(2)
  • 二级引证文献(8)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
K-means
Spark
大数据
Hadoop
MapReduce
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导