基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各有优势,其运算引擎主要包括三种:①传统的Map/Reduce引擎;②新兴的Spark引擎;③基于shared-nothing架构的MPP引擎.本文选取了其中最有代表性的三种SQL查询引擎 Hive、Spark SQL、Impala,并使用了一种类TPC-H的测试基准对它们的决策支持能力进行测试及评估.从实验结果来看,Impala和Spark SQL相对于传统的Hive都有较大的提高,其中Impala的部分查询比Hive快了10倍以上,并且Impala在完成查询所占用的集群资源也是最少的.然而若从稳定性、易用性、兼容性和性能等多个方面进行对比,并不存在各方面均最优的查询引擎,因此在构建基于Hadoop的数据仓库系统时,推荐采用Hive+ Impala或者Hive+Spark SQL的混合架构.
推荐文章
基于SQL-on-Hadoop查询引擎的日志挖掘及其应用
大数据
日志分析
数据挖掘
Hadoop
查询引擎
数据采集
索引存储
证券行业
基于SQL-on-Hadoop的网络日志分析
日志分析
大数据
Hadoop
SQL
网络安全
基于Hadoop的交互式大数据分析查询处理方法
Hadoop集群
大数据处理
交互式查询
快速
SQL
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Hadoop的SQL查询引擎性能研究
来源期刊 华中师范大学学报(自然科学版) 学科 工学
关键词 大数据 SQL-on-Hadoop 数据仓库 Spark SQL Impala Hive
年,卷(期) 2016,(2) 所属期刊栏目
研究方向 页码范围 174-182
页数 9页 分类号 TP311
字数 5048字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 吴黎兵 武汉大学计算机学院 74 513 14.0 18.0
2 邱鑫 武汉大学计算机学院 4 15 2.0 3.0
6 叶璐瑶 武汉大学计算机学院 4 69 4.0 4.0
7 王晓栋 1 12 1.0 1.0
8 聂雷 武汉大学计算机学院 10 80 5.0 8.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (1)
共引文献  (480)
参考文献  (3)
节点文献
引证文献  (12)
同被引文献  (16)
二级引证文献  (2)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(6)
  • 引证文献(6)
  • 二级引证文献(0)
2018(3)
  • 引证文献(3)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
大数据
SQL-on-Hadoop
数据仓库
Spark SQL
Impala
Hive
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
华中师范大学学报(自然科学版)
双月刊
1000-1190
42-1178/N
大16开
武汉市武昌桂子山
38-39
1955
chi
出版文献量(篇)
3391
总下载数(次)
5
总被引数(次)
18993
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导