基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为解决幂迭代聚类算法并行实现中存在的编程繁琐、效率低下等问题,基于Spark大规模数据通用计算引擎及其GraphX组件,提出了一种在分布式环境下实现幂迭代聚类的方法.首先,利用某种相似性度量方法,将原始数据转换成一个可以视为图的亲和矩阵;然后,通过顶点切割,把行归一化后的亲和矩阵切分成若干个小图,分别存储在不同的机器上;最后,利用Spark基于内存计算的特点,对存储在集群中的图进行多次迭代计算,得到这个图的一个切割,图的每一个划分子图对应一个类簇.在不同规模的数据集和不同executor个数下进行的实验结果表明,基于GraphX的分布式幂迭代聚类算法具有良好的可扩展性,算法运行时间与executor个数呈负相关的线性关系,在6个executor下,与单个executor相比,算法的加速比达到了2.09到3.77.同时,通过与基于Hadoop的幂迭代聚类进行对比,在新闻数量为40000篇时,运行时间降低了61%.
推荐文章
一种基于密度的分布式聚类改进算法
聚类
分布式
数据挖掘
代表点
基于节点数据密度的分布式K-means聚类算法研究
点对点技术
K-means聚类
自适应
置信半径
分布式环境中聚类问题算法研究综述
集中式聚类
分布式聚类
聚类精度
聚类时间
网格环境下基于Weka4WS的分布式聚类算法
网格
分布式
聚类
数据挖掘
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于GraphX的分布式幂迭代聚类
来源期刊 计算机应用 学科 工学
关键词 GraphX 图计算 幂迭代聚类 内存计算 RDD
年,卷(期) 2016,(10) 所属期刊栏目 先进计算
研究方向 页码范围 2710-2714
页数 5页 分类号 TP301.6
字数 4761字 语种 中文
DOI 10.11772/j.issn.1001-9081.2016.10.2710
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 赵军 北京航空航天大学计算机科学与技术系 5 52 4.0 5.0
3 徐晓燕 2 4 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (10)
共引文献  (25)
参考文献  (5)
节点文献
引证文献  (4)
同被引文献  (12)
二级引证文献  (0)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(3)
  • 参考文献(0)
  • 二级参考文献(3)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(3)
  • 参考文献(3)
  • 二级参考文献(0)
2016(3)
  • 参考文献(3)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
GraphX
图计算
幂迭代聚类
内存计算
RDD
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用
月刊
1001-9081
51-1307/TP
大16开
成都237信箱
62-110
1981
chi
出版文献量(篇)
20189
总下载数(次)
40
论文1v1指导