原文服务方: 现代电子技术       
摘要:
在数据挖掘中,针对聚类过程中数据存在的稀疏性问题,如果仍用传统的欧氏距离作为聚类指标,聚类的质量和效率将会受到一定的影响.受到信息论中KL散度的启发,文中提出一种基于Spark开源数据框架下利用KL散度的相似性度量方法,对目前使用的聚类算法进行优化.首先,通过预聚类,对数据的整体分布进行分析;然后,借助KL散度作为聚类的距离指标,充分利用数据集中元素提供的信息来度量不同数据集的相互关系,指导数据的聚类,在一定程度上改善了数据分布稀疏性的问题.整个过程基于Spark分布式数据处理框架,充分利用集群的能力对数据进行处理,提升数据处理的准确度和算法的时间效率;同时利用KL散度作为数据聚类距离指标,以充分考虑数据内部蕴藏的信息,使得聚类的质量得到了提升.最后通过一个实验来验证所提算法的有效性.
推荐文章
基于Spark并行的密度峰值聚类算法
聚类
密度峰值
空间划分
并行
Spark
基于Spark的PFP-Growth并行算法优化实现
并行化
Spark
关联挖掘
PFP-Growth
基于混合属性的产品优化聚类算法
聚类
混合属性
相似性度量
动态时间弯曲
分层优化
基于Spark的模糊聚类算法实现及其应用
聚类分析
模糊C均值
Spark
入侵检测
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark的聚类算法优化与实现
来源期刊 现代电子技术 学科
关键词 聚类算法优化 Spark 数据分布分析 数据聚类 聚类分析 数据处理
年,卷(期) 2020,(8) 所属期刊栏目 计算机科学与应用
研究方向 页码范围 52-55,59
页数 5页 分类号 TN911-34|TP301.6
字数 语种 中文
DOI 10.16652/j.issn.1004-373x.2020.08.014
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 舒红平 成都信息工程大学软件工程学院 65 461 11.0 18.0
5 刘魁 成都信息工程大学软件工程学院 9 20 3.0 4.0
6 赵玉明 成都信息工程大学软件工程学院 3 0 0.0 0.0
10 魏培阳 成都信息工程大学软件工程学院 4 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (233)
共引文献  (156)
参考文献  (22)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1951(1)
  • 参考文献(0)
  • 二级参考文献(1)
1967(1)
  • 参考文献(0)
  • 二级参考文献(1)
1973(1)
  • 参考文献(0)
  • 二级参考文献(1)
1979(2)
  • 参考文献(0)
  • 二级参考文献(2)
1981(1)
  • 参考文献(0)
  • 二级参考文献(1)
1982(1)
  • 参考文献(0)
  • 二级参考文献(1)
1984(1)
  • 参考文献(0)
  • 二级参考文献(1)
1985(1)
  • 参考文献(0)
  • 二级参考文献(1)
1989(1)
  • 参考文献(0)
  • 二级参考文献(1)
1991(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1998(6)
  • 参考文献(0)
  • 二级参考文献(6)
1999(5)
  • 参考文献(0)
  • 二级参考文献(5)
2000(3)
  • 参考文献(0)
  • 二级参考文献(3)
2001(3)
  • 参考文献(0)
  • 二级参考文献(3)
2002(6)
  • 参考文献(0)
  • 二级参考文献(6)
2003(5)
  • 参考文献(0)
  • 二级参考文献(5)
2004(6)
  • 参考文献(0)
  • 二级参考文献(6)
2005(8)
  • 参考文献(0)
  • 二级参考文献(8)
2006(7)
  • 参考文献(0)
  • 二级参考文献(7)
2007(14)
  • 参考文献(0)
  • 二级参考文献(14)
2008(10)
  • 参考文献(2)
  • 二级参考文献(8)
2009(14)
  • 参考文献(1)
  • 二级参考文献(13)
2010(13)
  • 参考文献(0)
  • 二级参考文献(13)
2011(7)
  • 参考文献(0)
  • 二级参考文献(7)
2012(9)
  • 参考文献(1)
  • 二级参考文献(8)
2013(20)
  • 参考文献(0)
  • 二级参考文献(20)
2014(25)
  • 参考文献(2)
  • 二级参考文献(23)
2015(27)
  • 参考文献(3)
  • 二级参考文献(24)
2016(20)
  • 参考文献(3)
  • 二级参考文献(17)
2017(21)
  • 参考文献(7)
  • 二级参考文献(14)
2018(12)
  • 参考文献(2)
  • 二级参考文献(10)
2019(2)
  • 参考文献(1)
  • 二级参考文献(1)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
聚类算法优化
Spark
数据分布分析
数据聚类
聚类分析
数据处理
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
现代电子技术
半月刊
1004-373X
61-1224/TN
大16开
1977-01-01
chi
出版文献量(篇)
23937
总下载数(次)
0
总被引数(次)
135074
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导