基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
MapReduce分布式计算框架有助于提升大规模数据连接查询的效率,但当连接属性分布不均匀时,其简单的散列策略容易导致计算节点间负载不均衡,影响作业的整体性能.针对连接查询操作中的数据倾斜问题,研究了MapReduce框架下大规模数据连接查询操作的优化算法.首先对经典的改进重分区连接查询算法进行实验分析,研究了传统MapReduce计算框架下连接查询操作的执行流程,找出了基于MapReduce计算框架的连接查询算法在数据分布不均匀时的性能瓶颈;进而提出了组合分割平衡分区优化策略,设计并实现了基于组合分割平衡分区优化策略的改进型连接查询算法.实验结果表明,提出的优化策略在大规模数据的连接查询处理上很好地解决了数据倾斜带来的性能影响,具有好的时间性能和可扩展性.
推荐文章
基于连接依赖信息的分布式连接查询优化算法
分布式数据库
站点依赖
连接依赖
片段复制
MapReduce框架下一种负载均衡的Top-k连接查询算法
Top-k连接查询
MapReduce框架
数据过滤
负载均衡
执行时间
异构式分布下的Internet数据挖掘方法优化研究
异构式分布
internet
数据挖掘方法
优化研究
基于共享的MapReduce多查询优化技术
查询优化
MapReduce
查询共享
执行计划
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 非均匀数据分布下的MapReduce连接查询算法优化
来源期刊 计算机科学与探索 学科 工学
关键词 连接查询 MapReduce 数据倾斜
年,卷(期) 2017,(5) 所属期刊栏目 数据库技术
研究方向 页码范围 752-767
页数 16页 分类号 TP311.130
字数 12673字 语种 中文
DOI 10.3778/j.issn.1673-9418.1604022
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 钱俊彦 桂林电子科技大学广西可信软件重点实验室 86 238 9.0 10.0
2 周萍 桂林电子科技大学广西自动检测技术与仪器重点实验室 78 352 10.0 13.0
3 杨青 桂林电子科技大学广西自动检测技术与仪器重点实验室 46 183 7.0 10.0
4 张敬伟 桂林电子科技大学广西可信软件重点实验室 26 74 6.0 7.0
8 尚宏佳 桂林电子科技大学广西可信软件重点实验室 1 5 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (6)
共引文献  (30)
参考文献  (4)
节点文献
引证文献  (5)
同被引文献  (4)
二级引证文献  (0)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(3)
  • 引证文献(3)
  • 二级引证文献(0)
研究主题发展历程
节点文献
连接查询
MapReduce
数据倾斜
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学与探索
月刊
1673-9418
11-5602/TP
大16开
北京市海淀区北四环中路211号北京619信箱26分箱
82-560
2007
chi
出版文献量(篇)
2215
总下载数(次)
4
论文1v1指导