基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
近年来,随着大数据场景的兴起,RDBMS由于其自身的扩展性和可用性限制无法满足企业需求.NoSQL数据库的出现弥补了传统关系型数据库在大数据领域的不足.NoSQL数据库本身具有良好的扩展性、容错性以及实时访问、存储TB级别数据的特点.HBase就是以HDFS和MapReduce为基础的开源NoSQL型分布式数据库,它不支持二级索引、事务和批量数据处理时延长等[1].本文以HBase和Spark为基础,增加插件使HBase支持SQL语句和二级索引,通过修改Spark源码,提升对HBase数据的本地化计算级别.插件对HBase无侵入、低耦合,支持用户输入SQL语句,把输入字段转化为HBase的列族和列限定符,根据不同的场景选取不同的执行方案.MapReduce计算框架具有计算效率低,无法利用HBase的读写缓存的缺陷[1],原始Spark框架不能感知HBase数据分片.本文改进Spark能感知HBase 数据分片,对HBase中数据进行高级别本地化计算.最终,将本文设计的系统与业内常用的Hive+ HBase方案对比常用SQL消耗的时延[3].通过实验得出,本文构建的优化方案在没有缺失HBase的优良特性的基础上加强了部分应用场景的实时性.
推荐文章
大数据平台实时计算监控方案分析
Flume
Kafka
Slipstream
实时计算
监控
逻辑校验
数据校验
智慧民生融合服务平台中的大数据应用
智慧民生
三屏融合
数据存储
网络大数据平台中的特征数据分类系统设计与实现
网络大数据平台
特征数据分类系统
分类服务
云计算
基于HBase的健康大数据平台性能优化及应用
健康大数据
HBase
分布式数据库
负载预测
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 电力大数据平台中HBase的实时性优化方案
来源期刊 数据通信 学科
关键词 HBase Coprocessor Spark 二级索引
年,卷(期) 2019,(1) 所属期刊栏目 技术方案
研究方向 页码范围 11-15
页数 5页 分类号
字数 4669字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 胡晓勤 四川大学计算机学院 83 578 12.0 19.0
2 方威 四川大学计算机学院 1 1 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (13)
共引文献  (2)
参考文献  (3)
节点文献
引证文献  (1)
同被引文献  (0)
二级引证文献  (0)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2014(2)
  • 参考文献(0)
  • 二级参考文献(2)
2015(3)
  • 参考文献(0)
  • 二级参考文献(3)
2016(2)
  • 参考文献(0)
  • 二级参考文献(2)
2017(2)
  • 参考文献(0)
  • 二级参考文献(2)
2018(3)
  • 参考文献(3)
  • 二级参考文献(0)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
HBase Coprocessor
Spark
二级索引
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
数据通信
双月刊
1002-5057
11-2841/TP
大16开
北京市海淀区学院路40号
82-891
1980
chi
出版文献量(篇)
2014
总下载数(次)
6
论文1v1指导