基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对K-means算法在数据聚类过程中初始值选取的随机性问题,基于非均匀采样原则对该算法进行改进.同时,针对聚类算法并行化的需求,基于Spark平台对改进算法进行了并行化实现.单机串行处理和集群并行化实验证明了该改进算法在处理海量数据集时具有更高的准确性和稳定性,且在Spark平台上的并行化实现具有良好的加速比和可扩展性,从而表明该算法能在实际的海量数据处理中高效运行.
推荐文章
基于Spark的改进K-means算法的并行实现
聚类算法
简化轮廓系数
形态学相似距离
相似性度量
基于Spark的并行K-means算法研究
Spark
K-means
PSO
迭代计算
个性化服务中的并行K-Means聚类算法
个性化服务
并行
聚类算法
自适应布谷鸟搜索的并行K-means聚类算法
聚类
K-均值算法
布谷乌搜索算法
Hadoop
MapReduce
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark平台的K-means聚类算法改进及并行化实现
来源期刊 互联网天地 学科
关键词 K-means 聚类 Spark 并行化
年,卷(期) 2016,(1) 所属期刊栏目 研究与分析
研究方向 页码范围 44-50
页数 7页 分类号
字数 4042字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 吴哲夫 浙江工业大学信息工程学院 35 172 7.0 11.0
2 张彤 浙江工业大学信息工程学院 19 81 5.0 7.0
3 肖鹰 浙江工业大学信息工程学院 4 31 2.0 4.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (9)
共引文献  (54)
参考文献  (5)
节点文献
引证文献  (23)
同被引文献  (64)
二级引证文献  (39)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(4)
  • 参考文献(2)
  • 二级参考文献(2)
2010(3)
  • 参考文献(0)
  • 二级参考文献(3)
2011(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2016(2)
  • 引证文献(2)
  • 二级引证文献(0)
2017(10)
  • 引证文献(9)
  • 二级引证文献(1)
2018(15)
  • 引证文献(6)
  • 二级引证文献(9)
2019(26)
  • 引证文献(5)
  • 二级引证文献(21)
2020(9)
  • 引证文献(1)
  • 二级引证文献(8)
研究主题发展历程
节点文献
K-means
聚类
Spark
并行化
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
互联网天地
月刊
1672-5077
11-5055/TN
16开
北京崇文区广渠门内大街80号通正国际大厦608
80-139
2004
chi
出版文献量(篇)
3339
总下载数(次)
10
总被引数(次)
4706
相关基金
浙江省自然科学基金
英文译名:
官方网址:http://www.zjnsf.net/
项目类型:一般项目
学科类型:
论文1v1指导