原文服务方: 计算机应用研究       
摘要:
针对FSDP聚类算法在计算数据对象的局部密度与最小距离时,由于需要遍历整个数据集而导致算法整体时间复杂度较高的问题,提出了一种基于Spark的并行FSDP聚类算法SFSDP.首先,通过空间网格划分将待聚类数据集划分成多个数据量相对均衡的数据分区;然后,利用改进的FSDP聚类算法并行地对各个分区内的数据执行聚类分析;最后,通过将分区间的局部簇集合并,生成全局簇集.实验结果表明,SFSDP与FSDP算法相比能够有效地进行大规模数据集的聚类分析,并且算法在准确性和扩展性方面都有很好的表现.
推荐文章
基于Spark的密度聚类算法并行化研究
DBSCAN
聚类
Spark
并行化
基于Spark框架的并行聚类算法
K-means
Spark
大数据
Hadoop
MapReduce
基于Spark的层次聚类算法的并行化研究
Spark
层次聚类
CURE
RDD
并行化
基于密度比例的密度峰值聚类算法
聚类
密度峰值
密度比例
密度变化
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark并行的密度峰值聚类算法
来源期刊 计算机应用研究 学科
关键词 聚类 密度峰值 空间划分 并行 Spark
年,卷(期) 2020,(1) 所属期刊栏目 算法研究探讨
研究方向 页码范围 163-166,171
页数 5页 分类号 TP301.6
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2018.04.0377
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 吴锡生 江南大学物联网工程学院 81 560 14.0 18.0
2 孙伟鹏 江南大学物联网工程学院 3 4 1.0 2.0
3 孟斌 中船重工集团第七○二研究所软件工程中心 2 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (17)
共引文献  (167)
参考文献  (9)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1975(1)
  • 参考文献(1)
  • 二级参考文献(0)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(4)
  • 参考文献(3)
  • 二级参考文献(1)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(5)
  • 参考文献(1)
  • 二级参考文献(4)
2016(2)
  • 参考文献(2)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
聚类
密度峰值
空间划分
并行
Spark
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导