基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
MapReduce是一个目前应用广泛的并行计算框架,如何解决Reduce节点的负载平衡问题是MapReduce程序执行效率的一个重要研究方向.基于抽样的划分是一种比较有效的数据划分方法,为了使得抽样方法发挥最大程度的效益,研究了抽样效果与其重要影响因素之间的定量关系,并给出了相关理论及其证明推导,同时通过实验进一步验证了理论的正确性.基于研究的结果,可以在给定MapReduce环境中,通过分析数据特征,找到最优抽样样本规模,从而通过尽可能小的抽样代价来得到满足要求的数据划分.通过将研究成果应用在改进的Terasort算法上,以实例验证了其在MapRedece平台上的实际意义.
推荐文章
多核处理器中基于MapReduce的哈希划分优化
数据划分
哈希处理
多核处理器
MapReduce模型
并行随机抽样贪心算法分区的MapReduce负载均衡研究
MapReduce
负载均衡
贪心算法分区
并行随机抽样
分区建模
对比验证
机群系统上基于映射和抽样划分的并行聚类算法
聚类
并行算法
机群系统
映射
抽样
划分
混合MapReduce环境下大数据划分的查询优化
混合架构
查询优化
划分建议器
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 MapReduce上基于抽样的数据划分最优化研究
来源期刊 计算机研究与发展 学科 工学
关键词 抽样 MapReduce框架 数据倾斜 负载平衡 数据集划分
年,卷(期) 2013,(z2) 所属期刊栏目 大数据存储与管理
研究方向 页码范围 77-84
页数 8页 分类号 TP391
字数 7125字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陈立军 北京大学信息科学技术学院 14 100 6.0 9.0
2 韩蕾 北京大学信息科学技术学院 14 237 8.0 14.0
3 吴志川 北京大学信息科学技术学院 2 31 2.0 2.0
4 孙徐湛 北京大学信息科学技术学院 1 21 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (21)
同被引文献  (38)
二级引证文献  (93)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(12)
  • 引证文献(10)
  • 二级引证文献(2)
2017(15)
  • 引证文献(3)
  • 二级引证文献(12)
2018(35)
  • 引证文献(4)
  • 二级引证文献(31)
2019(29)
  • 引证文献(2)
  • 二级引证文献(27)
2020(22)
  • 引证文献(1)
  • 二级引证文献(21)
研究主题发展历程
节点文献
抽样
MapReduce框架
数据倾斜
负载平衡
数据集划分
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机研究与发展
月刊
1000-1239
11-1777/TP
大16开
北京中关村科学院南路6号
2-654
1958
chi
出版文献量(篇)
7553
总下载数(次)
35
总被引数(次)
164870
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导