基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对Spark分布式平台在shuffle阶段中导致数据量分配不均衡的问题,首先分析了Spark平台中数据倾斜的原因,建立了一个可以统一量化shuffle后key-value数据倾斜程度的倾斜模型;基于倾斜模型提出了一个可以解决Spark平台中多种数据倾斜问题的shuffle分区方案.该分区方案首先对Map阶段的输出数据进行采样,预测出全局中间数据的大小,再根据基于哈希的最佳适应算法对采样数据进行预分区,得到一张预分区表,最后根据预分区表对全部的中间数据完成分区.在key和value这2种不同倾斜情况下的实验结果表明,该shuffle分区方案具有普适性和高效性,可以有效处理key和value倾斜的情况.
推荐文章
基于分配适应度的Spark渐进填充分区映射算法
并行计算
Spark
渐进填充
分区映射
分配适应度
一种Spark集群下的shuffle优化机制
Spark集群
shuffle过程
数据传输
本地性
调度策略
Spark数据倾斜问题研究
大数据
Spark
数据倾斜
数据处理
基于Spark的并行KMeans聚类模型研究
Spark
KMeans
MovieLens
并行聚类
repartition
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Spark环境下基于数据倾斜模型的 Shuffle分区优化方案
来源期刊 北京邮电大学学报 学科 工学
关键词 数据倾斜 Spark shuffle 分区算法 负载均衡
年,卷(期) 2020,(2) 所属期刊栏目 研究报告
研究方向 页码范围 116-121
页数 6页 分类号 TP399
字数 语种 中文
DOI 10.13190/j.jbupt.2019-092
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 邱雪松 北京邮电大学网络与交换技术国家重点实验室 167 1287 17.0 26.0
2 王智立 北京邮电大学网络与交换技术国家重点实验室 19 80 5.0 7.0
3 阎逸飞 北京邮电大学网络与交换技术国家重点实验室 1 0 0.0 0.0
4 王嘉潞 北京邮电大学网络与交换技术国家重点实验室 1 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1981(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(2)
  • 参考文献(2)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据倾斜
Spark
shuffle
分区算法
负载均衡
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
北京邮电大学学报
双月刊
1007-5321
11-3570/TN
大16开
北京海淀区西土城路10号
2-648
1960
chi
出版文献量(篇)
3472
总下载数(次)
19
总被引数(次)
26644
论文1v1指导