作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对 Range partition 算法不能优化数据集严重倾斜情形下的两表连接效率问题,提出一种改进的数据倾斜连接算法。该算法将倾斜数据和非倾斜数据区别处理,利用复制、广播方法将数据发送到每个 Reduce 节点,通过一轮 Map/Reduce 任务完成所有的连接操作,可有效均衡每个 Reduce 处理量,解决了数据严重倾斜对两表连接性能的影响。与传统的分区连接算法比较结果表明,该算法有效。
推荐文章
基于Spark的两表等值连接过程优化
Spark
等值连接
大数据
优化
拆分
MapReduce平台上面向倾斜数据连接的负载平衡方法
倾斜数据
负载平衡
MapReduce平台
任务分配
特征提取
负载偏移控制
评价函数
基于PML结构文件的MapReduce算法优化
物联网
云计算
乳制品追溯
MapReduce
XGrind
数据倾斜情况下基于MapReduce模型的连接算法研究
连接算法
数据倾斜
全局分区
采样
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于MapReduce的两表数据倾斜连接的优化算法
来源期刊 吉林大学学报(理学版) 学科 工学
关键词 MapReduce Range partition算法 数据倾斜 连接算法优化
年,卷(期) 2016,(6) 所属期刊栏目 计算机科学
研究方向 页码范围 1383-1387
页数 5页 分类号 TP311
字数 2871字 语种 中文
DOI 10.13413/j.cnki.jdxblxb.2016.06.35
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 赵宇兰 山西大学商务学院信息学院 17 20 3.0 3.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (1)
同被引文献  (2)
二级引证文献  (0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
MapReduce
Range partition算法
数据倾斜
连接算法优化
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
吉林大学学报(理学版)
双月刊
1671-5489
22-1340/O
大16开
长春市南湖大路5372号
12-19
1955
chi
出版文献量(篇)
4812
总下载数(次)
6
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导