基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
随着互联网技术的发展,人类产生的数据量正在呈指数级增长,Hadoop作为大数据领域的常用工具,在现代生活中发挥着至关重要的作用。Hive是基于Hadoop的一个数据仓库工具,在做查询统计分析时最终翻译成Hadoop平台上的MapReduce程序运行,当数据量不断增大时,就会使得查询效率[5]下降。该文就此提出了一种Hive与Spark结合的方案,将Hive的查询作为Spark的任务提交到Spark集群上进行计算,利用Spark的特性提高Hive查询性能。该研究首先理论阐述了Hive与Spark各自的工作机制,然后介绍HiveSpark原理,最后通过做实验,对实验结果进行对比,分析,从而验证HiveSpark提高了查询效率,对大规模数据处理具有一定参考意义。
推荐文章
海量图书检索信息的快速查询系统优化设计研究
海量图书信息
信息检索
快速查询系统
分布式架构
基于Hadoop的RDF数据存储及查询优化
资源描述框架
RDF数据查询
MapReduce
HBase
查询优化
基于Hadoop平台的数据迁移方法研究实现
Hadoop
关系型数据库
HBase
数据迁移
基于Hadoop的海量数据管理系统
海量数据
分布式平台
集群系统
分布式计算
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于hadoop平台海量数据的快速查询与实现
来源期刊 电脑知识与技术:学术交流 学科 工学
关键词 HADOOP Hive SPARK 查询 海量数据
年,卷(期) 2016,(7X) 所属期刊栏目
研究方向 页码范围 3-5
页数 3页 分类号 TP31
字数 语种
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张林 西南石油大学计算机科学学院 40 266 9.0 15.0
2 何坤鹏 西南石油大学计算机科学学院 4 5 1.0 2.0
3 褚福银 西南石油大学计算机科学学院 4 5 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (5)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
HADOOP
Hive
SPARK
查询
海量数据
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电脑知识与技术:学术版
旬刊
1009-3044
34-1205/TP
安徽合肥市濉溪路333号
26-188
出版文献量(篇)
41621
总下载数(次)
23
总被引数(次)
0
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导