基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
MapReduce是一种适用于大数据处理的重要并行计算框架.然而,由于难以提前全面获得中间数据的分布规律,默认的数据分区策略往往会造成Reducer端的数据倾斜,会直接影响MapReduce的整体性能.为了实现数据均衡分区,本文提出一种迭代式数据均衡分区策略,将每个Mapper节点要处理的数据块细分后以迭代方式循环处理,根据已迭代轮次的微分区分配结果决定当前迭代轮次的微分区分配方案,以不断调整历次迭代产生的数据倾斜,逐步实现数据均衡分区.给出了迭代式数据分区策略的分配时机、分配准则、分配评价模型和分配算法.基于公开的数据集,对迭代式数据均衡分区策略进行了详细测评,结果表明,该策略能够得到更均衡的数据分区结果,当数据集本身倾斜比较显著时,MapReduce整体性能比默认分区策略平均提高了11.1%和19.7%.
推荐文章
迭代式MapReduce研究进展
MapReduce
迭代计算
迭代式MapReduce
并行编程模型
大数据处理
并行随机抽样贪心算法分区的MapReduce负载均衡研究
MapReduce
负载均衡
贪心算法分区
并行随机抽样
分区建模
对比验证
MRI:面向并行迭代的MapReduce模型
MapReduce
并行计算
迭代计算
机器学习
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向MapReduce的迭代式数据均衡分区策略
来源期刊 计算机学报 学科 工学
关键词 MapReduce 大数据 数据倾斜 迭代式数据分区 微分区 均衡分区
年,卷(期) 2019,(8) 所属期刊栏目 大数据
研究方向 页码范围 1873-1885
页数 13页 分类号 TP311
字数 11544字 语种 中文
DOI 10.11897/SP.J.1016.2019.01873
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 徐俊 浙江工业大学计算机科学与技术学院 39 170 8.0 10.0
2 张元鸣 浙江工业大学计算机科学与技术学院 65 493 11.0 19.0
3 陆佳炜 浙江工业大学计算机科学与技术学院 49 189 7.0 10.0
4 肖刚 浙江工业大学计算机科学与技术学院 138 1143 17.0 27.0
5 蒋建波 浙江工业大学计算机科学与技术学院 2 7 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (27)
共引文献  (519)
参考文献  (16)
节点文献
引证文献  (4)
同被引文献  (26)
二级引证文献  (0)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
1995(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(4)
  • 参考文献(1)
  • 二级参考文献(3)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(5)
  • 参考文献(1)
  • 二级参考文献(4)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(12)
  • 参考文献(4)
  • 二级参考文献(8)
2014(3)
  • 参考文献(0)
  • 二级参考文献(3)
2015(6)
  • 参考文献(4)
  • 二级参考文献(2)
2016(5)
  • 参考文献(4)
  • 二级参考文献(1)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2020(4)
  • 引证文献(4)
  • 二级引证文献(0)
研究主题发展历程
节点文献
MapReduce
大数据
数据倾斜
迭代式数据分区
微分区
均衡分区
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
总被引数(次)
187004
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导