基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
每次K-means算法更新聚类中心后,会对数据集中所有的点迭代计算它们与最新聚类中心的距离,进而获取点的最新聚类.这种全局迭代计算的特征导致传统K-means算法时间效率低.随着数据集增大,算法的时间效率和聚类性能下降过快,因此传统的K-means算法不适合大数据环境下的聚类使用.针对大数据场景下的时间效率和性能优化问题,提出了一种基于Spark的K-means安全区间更新优化算法.在每次更新聚类中心后,该算法更新安全区间标签,根据标签是否大于0每次判断落在该区间内的全部数据的簇别,避免计算所有点与中心的距离,减少因全局迭代造成的时间和计算资源开销.算法基于Spark机器MLlib组件的点向量模型优化了模型性能.通过衡量平均误差准则和算法时间两个指标,进行了优化K-means与传统K-means聚类的性能对比实验.结果表明,所提出的优化算法在上述两个指标上均优于传统的K-means聚类算法,适用于大数据环境下的数据聚类场景.
推荐文章
基于Spark的并行K-means算法研究
Spark
K-means
PSO
迭代计算
基于Spark的改进K-means算法的并行实现
聚类算法
简化轮廓系数
形态学相似距离
相似性度量
Spark环境下K-means初始中心点优化研究综述
K-均值算法
分布式内存计算框架
算法优化
聚类算法
基于萤火虫优化的加权K-means算法
加权K-means
聚类
萤火虫算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark的K-means安全区间更新优化算法
来源期刊 计算机技术与发展 学科 工学
关键词 K-means 安全区间 Spark 大数据 时间效率
年,卷(期) 2017,(8) 所属期刊栏目 智能、算法、系统工程
研究方向 页码范围 1-6
页数 6页 分类号 TP301
字数 6017字 语种 中文
DOI 10.3969/j.issn.1673-629X.2017.08.001
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杨余旺 南京理工大学计算机科学与工程学院 76 410 10.0 15.0
2 李玉波 南京理工大学计算机科学与工程学院 1 2 1.0 1.0
3 唐浩 南京理工大学计算机科学与工程学院 2 7 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (106)
共引文献  (463)
参考文献  (14)
节点文献
引证文献  (2)
同被引文献  (3)
二级引证文献  (1)
1953(1)
  • 参考文献(0)
  • 二级参考文献(1)
1957(1)
  • 参考文献(0)
  • 二级参考文献(1)
1958(1)
  • 参考文献(0)
  • 二级参考文献(1)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1978(1)
  • 参考文献(0)
  • 二级参考文献(1)
1979(1)
  • 参考文献(0)
  • 二级参考文献(1)
1981(2)
  • 参考文献(0)
  • 二级参考文献(2)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1984(1)
  • 参考文献(0)
  • 二级参考文献(1)
1985(2)
  • 参考文献(0)
  • 二级参考文献(2)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1992(1)
  • 参考文献(0)
  • 二级参考文献(1)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(2)
  • 参考文献(0)
  • 二级参考文献(2)
1998(3)
  • 参考文献(0)
  • 二级参考文献(3)
1999(7)
  • 参考文献(0)
  • 二级参考文献(7)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(1)
  • 二级参考文献(1)
2002(5)
  • 参考文献(0)
  • 二级参考文献(5)
2003(5)
  • 参考文献(0)
  • 二级参考文献(5)
2004(5)
  • 参考文献(0)
  • 二级参考文献(5)
2005(5)
  • 参考文献(0)
  • 二级参考文献(5)
2006(4)
  • 参考文献(0)
  • 二级参考文献(4)
2007(10)
  • 参考文献(1)
  • 二级参考文献(9)
2008(10)
  • 参考文献(0)
  • 二级参考文献(10)
2009(7)
  • 参考文献(0)
  • 二级参考文献(7)
2010(12)
  • 参考文献(1)
  • 二级参考文献(11)
2011(6)
  • 参考文献(3)
  • 二级参考文献(3)
2012(7)
  • 参考文献(1)
  • 二级参考文献(6)
2013(6)
  • 参考文献(2)
  • 二级参考文献(4)
2014(4)
  • 参考文献(2)
  • 二级参考文献(2)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(0)
  • 二级引证文献(1)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
K-means
安全区间
Spark
大数据
时间效率
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机技术与发展
月刊
1673-629X
61-1450/TP
大16开
西安市雁塔路南段99号
52-127
1991
chi
出版文献量(篇)
12927
总下载数(次)
40
总被引数(次)
111596
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导