作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
在MapReduce模型任务处理过程中,当Reduce任务开始执行,远程拉取Map阶段的输出数据时,会消耗大量的网络带宽,甚至会出现网络瓶颈问题.本文提出基于数据本地化和负载均衡的任务分配策略.该策略中用户首先设置采样数据量M,在Map阶段对前M个数据块进行采样;其次根据采样结果,同时考虑数据本地化因素,将Reduce任务进行分配;然后基于负载均衡将Reduce任务进行再分配,通过任务分配,系统生成一个任务分配表;最后启动Reduce任务,系统开始数据拉取,未被采样的数据根据任务分配表进行任务分配.通过大量实验验证,基于数据本地化和负载均衡的任务分配策略,既能减少Shuffle阶段数据的传输量,又能降低网络带宽的消耗,同时可以避免出现某些节点空闲而其它节点任务量大甚至处理不了的情况,从而提高了集群处理数据的整体能力.
推荐文章
基于延迟调度策略的reduce调度优化算法
reduce任务
数据本地性
延迟调度
MapReduce任务调度
异构环境下自适应reduce任务调度算法的研究
Hadoop
reduce
异构环境
数据本地性
计算能力
基于logistic回归模型的Hadoop本地任务调度优化算法
Hadoop
MapReduce
本地调度
任务优先级
过载规则
logistic回归模型
异构环境下平滑加权轮询Reduce任务调度算法研究
Reduce任务调度
负载均衡
异构集群
平滑加权轮询算法
节点选取
并行图像处理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Hadoop环境下基于数据本地化的Reduce任务调度策略
来源期刊 计算机与现代化 学科 工学
关键词 采样 MapReduce 本地化 任务分配 负载均衡
年,卷(期) 2016,(1) 所属期刊栏目 网络与通信
研究方向 页码范围 114-120
页数 7页 分类号 TP311
字数 6106字 语种 中文
DOI 10.3969/j.issn.1006-2475.2016.01.023
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王浩 重庆医科大学附属第二医院信息中心 11 34 3.0 5.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (4)
节点文献
引证文献  (1)
同被引文献  (9)
二级引证文献  (0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
采样
MapReduce
本地化
任务分配
负载均衡
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机与现代化
月刊
1006-2475
36-1137/TP
大16开
南昌市井冈山大道1416号
44-121
1985
chi
出版文献量(篇)
9036
总下载数(次)
25
总被引数(次)
56782
论文1v1指导