基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在分布式计算和内存为王的时代,Spark作为基于内存计算的分布式框架技术得到了前所未有的关注与应用.着重研究BIRCH算法在Spark上并行化的设计和实现,经过理论性能分析得到并行化过程中时间消耗较多的Spark转化操作,同时根据并行化BIRCH算法的有向无环图DAG,减少shuffle和磁盘读写频率,以期达到性能优化.最后,将并行化后的BIRCH算法分别与单机的BIRCH算法和MLlib中的K-Means聚类算法做了性能对比实验.实验结果表明,通过Spark对BIRCH算法并行化,其聚类质量没有明显的损失,并且获得了比较理想的运行时间和加速比.
推荐文章
基于Spark的并行Eclat算法
关联规则挖掘
大数据
Spark
投影树
并行化
基于Spark的PFP-Growth并行算法优化实现
并行化
Spark
关联挖掘
PFP-Growth
基于Spark的并行K-means算法研究
Spark
K-means
PSO
迭代计算
基于Spark的并行社区发现算法
社区发现
Spark
并行算法
图聚类
图数据
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark的BIRCH算法并行化的设计与实现
来源期刊 计算机工程与科学 学科 工学
关键词 Spark BIRCH并行化 性能优化
年,卷(期) 2017,(1) 所属期刊栏目 高性能计算
研究方向 页码范围 35-41
页数 7页 分类号 TP393.027
字数 4844字 语种 中文
DOI 10.3969/j.issn.1007-130X.2017.01.004
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 吴斌 北京邮电大学计算机学院 80 1409 15.0 36.0
2 陈玉峰 国网山东省电力公司电力科学研究院 24 403 9.0 20.0
3 李帅 北京邮电大学智能通信软件与多媒体北京重点实验室 1 25 1.0 1.0
4 杜修明 国网山东省电力公司电力科学研究院 11 233 6.0 11.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (19)
共引文献  (29)
参考文献  (7)
节点文献
引证文献  (25)
同被引文献  (73)
二级引证文献  (16)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(1)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(2)
  • 二级参考文献(0)
2008(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(4)
  • 参考文献(0)
  • 二级参考文献(4)
2012(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(3)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(3)
  • 二级引证文献(0)
2017(3)
  • 引证文献(3)
  • 二级引证文献(0)
2018(14)
  • 引证文献(9)
  • 二级引证文献(5)
2019(18)
  • 引证文献(10)
  • 二级引证文献(8)
2020(6)
  • 引证文献(3)
  • 二级引证文献(3)
研究主题发展历程
节点文献
Spark
BIRCH并行化
性能优化
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与科学
月刊
1007-130X
43-1258/TP
大16开
湖南省长沙市开福区德雅路109号国防科技大学计算机学院
42-153
1973
chi
出版文献量(篇)
8622
总下载数(次)
11
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导