基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对聚类算法处理海量数据所存在的不足,提出基于Spark的K-means快速聚类算法的优化.使用形态学相似距离代替欧氏距离作为相似度测量标准来提高聚类准确率;通过最大距离(Max-distince)准则改进因初始聚类中心选取不当而造成的局部最优问题;为减少迭代过程中的冗余计算,利用数据集中点的位置信息与聚类质心的位置关系建立网格结构.综合肘部法则绘制误差平方和SSE-K的关系图确定K值,并在Spark实现SMGK-means(SparkMaxGridK-means)聚类算法.通过实验表明,SMGK-means算法不仅准确率平均提高了6.73%,而且在Spark分布式集群下表现出优秀的执行效率和并行计算能力.
推荐文章
基于Spark的并行K-means算法研究
Spark
K-means
PSO
迭代计算
基于变异的k-means聚类算法
聚类
mk-means算法
变异
基于MapReduce的K-means聚类算法的优化
K均值算法
抽样
Canopy算法
最大最小距离法
基于属性权重最优化的 k-means 聚类算法
聚类算法
属性权重
数据挖掘
目标函数
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark的K-means快速聚类算法的优化
来源期刊 计算机仿真 学科 工学
关键词 形态学相似距离 最大距离 位置关系
年,卷(期) 2022,(3) 所属期刊栏目 仿真方法与算法
研究方向 页码范围 344-349
页数 6页 分类号 TP311
字数 语种 中文
DOI 10.3969/j.issn.1006-9348.2022.03.067
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
形态学相似距离
最大距离
位置关系
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机仿真
月刊
1006-9348
11-3724/TP
大16开
北京海淀阜成路14号
82-773
1984
chi
出版文献量(篇)
20896
总下载数(次)
43
总被引数(次)
127174
论文1v1指导