基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
大数据时代,由中低端硬件组成的大规模机群逐渐成为海量数据处理的主流平台之一.然而传统基于高端硬件平台设计的并行OLAP查询算法并不适应这种由不可靠计算单元组成的大规模并行计算的环境.为改善其在新计算环境下的的扩展性和容错性,该文对传统数据仓库的数据组织模式及处理模式进行改造,提出了全新的无连接雪花模型和TRM执行模型.无连接雪花模型基于层次编码技术,将维表层次等关键信息压缩进事实表,使得事实表可以独立处理数据,从数据模型层保证了数据计算的独立性;TRM执行模型将OLAP查询的处理抽象为Transform、Reduce、Merge3个操作,使得OLAP查询可被划分为众多可并行执行的独立子任务,从执行层保证了系统的高度可扩展特性.在性能优化方面,该文提出了Scan-index扫描和跳跃式扫描算法,以尽可能地减少I/O访问操作;设计了并行谓词判断、批量谓词判断等优化算法,以加速本地计算速度.实验表明:LaScOLAP原型可以获得较好的扩展性和容错性,其性能比HadoopDB高出一个数量级.
推荐文章
面向异质可扩展标记语言文档的近似查询算法
近似查询
基本变异操作
变异查询树
异质可扩展标记语言文档
面向OLAP的高效海量数据存储技术研究与实现
OLAP
数据存储
海量
关系数据库
多维
文本数据
大规模机群系统的快速部署与动态配置
机群
可扩展标记语言
KickStart
PXE
模板
组件
基于语义的OLAP查询优化策略
查询优化
联机分析处理
数据立方体
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向大规模机群的可扩展OLAP查询技术
来源期刊 计算机学报 学科 工学
关键词 大规模可扩展 OLAP查询 无连接雪花模型 TRM执行模型 跳跃式扫描 Scan-index 大数据
年,卷(期) 2015,(1) 所属期刊栏目 大数据
研究方向 页码范围 45-58
页数 14页 分类号 TP311
字数 13538字 语种 中文
DOI 10.3724/SP.J.1016.2015.00045
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张延松 中国人民大学中国调查与数据中心 18 97 6.0 9.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (14)
同被引文献  (42)
二级引证文献  (11)
1984(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2016(4)
  • 引证文献(4)
  • 二级引证文献(0)
2017(6)
  • 引证文献(4)
  • 二级引证文献(2)
2018(3)
  • 引证文献(1)
  • 二级引证文献(2)
2019(8)
  • 引证文献(3)
  • 二级引证文献(5)
2020(3)
  • 引证文献(1)
  • 二级引证文献(2)
研究主题发展历程
节点文献
大规模可扩展
OLAP查询
无连接雪花模型
TRM执行模型
跳跃式扫描
Scan-index
大数据
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导