基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
数据倾斜是海量数据分析与处理中常见场景之一.在数据倾斜场景下,传统MapReduce连接查询算法并不能充分利用Hadoop平台并行计算编程模型特性.本文主要研究基于数据倾斜的MapReduce连接查询算法.针对传统多表连接查询算法不能有效解决数据倾斜导致的性能瓶颈问题,设计并实现统计倾斜轮询分区连接查询优化算法,该算法以HDFS作为数据存储层,通过统计倾斜与轮询分区策略有效将数据分发到Hadoop集群各个计算节点.实验表明,本文提出的算法在不同数据倾斜率下均能有效实现负载均衡,充分利用MapReduce并行计算特性,并已在实际应用场景中获得较好性能提升.
推荐文章
MapReduce平台上面向倾斜数据连接的负载平衡方法
倾斜数据
负载平衡
MapReduce平台
任务分配
特征提取
负载偏移控制
评价函数
MapReduce框架下一种负载均衡的Top-k连接查询算法
Top-k连接查询
MapReduce框架
数据过滤
负载均衡
执行时间
基于连接依赖信息的分布式连接查询优化算法
分布式数据库
站点依赖
连接依赖
片段复制
基于共享的MapReduce多查询优化技术
查询优化
MapReduce
查询共享
执行计划
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 CSPRJ:基于数据倾斜的MapReduce连接查询算法
来源期刊 小型微型计算机系统 学科 工学
关键词 数据倾斜 MapReduce Hadoop 连接查询 查询优化 负载均衡
年,卷(期) 2018,(2) 所属期刊栏目 计算机软件与数据库研究
研究方向 页码范围 367-371
页数 5页 分类号 TP311
字数 4323字 语种 中文
DOI 10.3969/j.issn.1000-1220.2018.02.033
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 周娅 桂林电子科技大学计算机与信息安全学院 90 540 11.0 19.0
2 魏夏飞 桂林电子科技大学计算机与信息安全学院 1 3 1.0 1.0
3 熊晗 桂林电子科技大学计算机与信息安全学院 1 3 1.0 1.0
4 胡彩林 桂林电子科技大学计算机与信息安全学院 1 3 1.0 1.0
5 李玲 桂林电子科技大学计算机与信息安全学院 1 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (10)
共引文献  (33)
参考文献  (7)
节点文献
引证文献  (3)
同被引文献  (4)
二级引证文献  (0)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(2)
  • 参考文献(2)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(0)
  • 二级参考文献(1)
2016(3)
  • 参考文献(3)
  • 二级参考文献(0)
2018(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据倾斜
MapReduce
Hadoop
连接查询
查询优化
负载均衡
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
小型微型计算机系统
月刊
1000-1220
21-1106/TP
大16开
辽宁省沈阳市东陵区南屏东路16号
8-108
1980
chi
出版文献量(篇)
11026
总下载数(次)
17
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导