基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
分布式计算集群Spark宽依赖并行度取决于用户设定参数,对于不同的作业类型或数据集,硬编码的并行度参数设定难以发挥集群的最大计算能效.针对这一问题,首先对Spark作业执行方式进行深入分析,建立作业调度模型,提出宽依赖计算代价、资源空置率和溢写概率的定义;然后分析任务并行度对作业执行时间的影响,证明并行度取值具有合理区间,提出并行度推断算法的优化目标.最后根据模型定义进行目标求解,设计批处理内存计算框架的并行度推断算法(parallelism deduction algorithm,PDA),通过构建的数据总量、执行区预留比、操作闭包集合、资源表等多个基础数据,计算符合资源需求表且具有最大资源利用率和最小开销的任务并行度;PDA算法在作业的各个Stage中迭代执行,根据计算环境优化调度方案提高性能.实验表明,PDA算法提高了Spark框架的作业执行效率,针对不同类型作业均具有良好的普适性.
推荐文章
基于Spark的并行Eclat算法
关联规则挖掘
大数据
Spark
投影树
并行化
基于Spark的并行K-means算法研究
Spark
K-means
PSO
迭代计算
基于Spark的并行社区发现算法
社区发现
Spark
并行算法
图聚类
图数据
基于Spark的PFP-Growth并行算法优化实现
并行化
Spark
关联挖掘
PFP-Growth
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Spark框架并行度推断算法
来源期刊 电子科技大学学报 学科 工学
关键词 内存计算 并行度推断 性能优化 Spark 溢写概率
年,卷(期) 2019,(4) 所属期刊栏目 计算机工程与应用
研究方向 页码范围 567-574
页数 8页 分类号 TP393.09
字数 7501字 语种 中文
DOI 10.3969/j.issn.1001-0548.2019.04.014
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 于炯 新疆大学信息科学与工程学院 176 1315 20.0 28.0
2 廖彬 新疆财经大学统计与信息学院 34 172 8.0 10.0
3 卞琛 广东金融学院互联网金融与信息工程学院 25 209 8.0 13.0
5 修位蓉 新疆大学信息科学与工程学院 6 42 3.0 6.0
6 英昌甜 新疆大学信息科学与工程学院 29 254 11.0 14.0
7 鲁亮 新疆大学信息科学与工程学院 31 234 10.0 13.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (2)
同被引文献  (13)
二级引证文献  (0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
内存计算
并行度推断
性能优化
Spark
溢写概率
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子科技大学学报
双月刊
1001-0548
51-1207/T
大16开
成都市成华区建设北路二段四号
62-34
1959
chi
出版文献量(篇)
4185
总下载数(次)
13
总被引数(次)
36111
相关基金
新疆维吾尔自治区自然科学基金
英文译名:
官方网址:
项目类型:
学科类型:
论文1v1指导