基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
大数据蕴含着巨大的价值.分析类查询是获取数据价值的一种重要手段.为及时把握分析结果的变化,查询需要周期性地重复.为此,将不可避免地引入对旧数据的重复分析.目前,以重用历史数据的中间结果、优化冗余计算为核心思路的增量分析技术,存在用户透明性不佳、对历史结果存储位置的选择不够智能化等问题,对周期性增量查询的优化效果有限.从兼顾用户透明性和优化收益的角度出发,设计了一种以语义规则为指导的增量优化方法.该方法扩展了增量描述语法,以查询操作符的操作语义和输出语义指导对历史数据存储、合并位置的选择,再根据代价模型和物理查询任务的划分位置对选择结果进行调整,生成优化后可以在分布式计算框架(如MapReduce)周期性调度执行的物理查询任务.以Apache Hive为基础,实现了上述方法的原型HiveInc.实验结果表明:对于扩展了增量语法描述的TPC-H测试集,HiveInc相对于优化前可以获得平均2.93倍、最高5.78倍的加速;与经典的优化技术IncMR、DryadInc相比,分别可以获得1.69倍和1.61倍的加速.
推荐文章
DAOA:一种动态数据仓库聚集优化算法
聚集优化
数据仓库
决策支持
最优路径算法
一种基于信息动态打包的数据仓库的设计方法
数据仓库
信息动态打包
星形图
面向Web的数据仓库体系设计
可扩展标记语言
数据仓库
数据挖掘
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 一种面向数据仓库周期性查询的增量优化方法
来源期刊 软件学报 学科 工学
关键词 数据仓库 周期性查询 增量优化 中间结果重用
年,卷(期) 2017,(8) 所属期刊栏目 数据库技术
研究方向 页码范围 2126-2147
页数 22页 分类号 TP311
字数 17542字 语种 中文
DOI 10.13328/j.cnki.jos.005107
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (4)
同被引文献  (7)
二级引证文献  (0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(2)
  • 引证文献(2)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据仓库
周期性查询
增量优化
中间结果重用
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
论文1v1指导