基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
数据的指数级增长给数据管理和分析带来了严峻的挑战,连接查询是数据分析中一种常用运算,而MapReduce是一种用于大规模数据集并行处理的编程模型,研究基于MapReduce的连接查询代价评估和查询优化,有着学术意义和应用价值.MapReduce连接查询算法的性能主要取决于I/O代价(包括本地和网络I/O),而I/O代价与数据集以及连接运算的特征参数相关,通过对二元连接的I/O代价评估可以优化多元连接执行计划.基于此,首先提出了二元连接查询的I/O代价模型;随后,对现有二元连接算法进行形式化定义和简单扩展,归纳出6种基于MapReduce连接查询算法,并通过算法白盒分析定义它们的I/O代价函数;最后,提出一种多元连接最优执行计划的选择算法.通过实验表明I/O代价模型的正确性且能够准确地反映算法的性能优劣.
推荐文章
MapReduce编程模型在网络I/O密集型程序中的应用研究
Hadoop
MapReduce
分布式
网络I/O密集型
MapReduce框架下一种负载均衡的Top-k连接查询算法
Top-k连接查询
MapReduce框架
数据过滤
负载均衡
执行时间
基于共享的MapReduce多查询优化技术
查询优化
MapReduce
查询共享
执行计划
基于连接依赖信息的分布式连接查询优化算法
分布式数据库
站点依赖
连接依赖
片段复制
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 MapReduce连接查询的I/O代价研究
来源期刊 软件学报 学科 工学
关键词 连接查询 MapReduce I/O代价模型 查询优化
年,卷(期) 2015,(6) 所属期刊栏目 数据库技术
研究方向 页码范围 1438-1456
页数 19页 分类号 TP311
字数 16301字 语种 中文
DOI 10.13328/j.cnki.jos.004586
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 朱志良 东北大学软件学院 112 1344 20.0 32.0
2 于戈 东北大学信息科学与工程学院 426 6587 38.0 64.0
3 宋杰 东北大学软件学院 39 690 14.0 25.0
4 鲍玉斌 东北大学信息科学与工程学院 85 1496 22.0 36.0
5 李甜甜 东北大学信息科学与工程学院 12 250 7.0 12.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (6)
共引文献  (3)
参考文献  (3)
节点文献
引证文献  (19)
同被引文献  (25)
二级引证文献  (123)
1994(1)
  • 参考文献(0)
  • 二级参考文献(1)
1999(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(1)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(6)
  • 引证文献(4)
  • 二级引证文献(2)
2017(19)
  • 引证文献(7)
  • 二级引证文献(12)
2018(57)
  • 引证文献(7)
  • 二级引证文献(50)
2019(36)
  • 引证文献(1)
  • 二级引证文献(35)
2020(24)
  • 引证文献(0)
  • 二级引证文献(24)
研究主题发展历程
节点文献
连接查询
MapReduce
I/O代价模型
查询优化
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
总被引数(次)
226394
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导