基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对传统的抽取、转换和加载工具在面临数据仓库中海量事实数据时效率较低的问题,从事实表查找代理键和多粒度事实预聚合2个角度出发,提出在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法。第1种算法综合考虑了渐变维度和大维度的情况,运用分布式缓存方法将小维度表复制到各个数据节点的内存中,同时对事实数据和大维度数据采用相同的分区函数进行分区,从而解决内存不足的问题,在Map阶段实现多路查找代理键,避免由于数据传输产生的网络延迟。第2种算法在Reduce阶段之后增加Merge阶段,可有效解决事实数据按照不同粒度进行聚合的问题。实验结果表明,与Hive数据仓库相比,2种算法在并行处理数据仓库的事实数据的问题上具有更高的处理效率。
推荐文章
基于Hadoop平台的FCM算法并行化设计
模糊C均值
MES
数据挖掘
并行化处理
基于 Hadoop平台的并行特征匹配算法研究
分布式文件系统
大数据
特征匹配
并行扫描
基于并行计算的高效图稀疏化处理算法
MapReduce
Minhash
图聚类分析
数据抽样
并行计算
基于Hadoop平台的LDA算法的并行化实现
Hadoop
MapReduce
LDA主题模型
Gibbs
中文分词
并行计算
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Hadoop平台的事实并行处理算法
来源期刊 计算机工程 学科 工学
关键词 MapReduce模型 维度 事实 代理键 并行查找 聚合
年,卷(期) 2014,(3) 所属期刊栏目 先进计算与数据处理
研究方向 页码范围 59-62,81
页数 5页 分类号 TP311
字数 3815字 语种 中文
DOI 10.3969/j.issn.1000-3428.2014.03.012
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李继云 东华大学计算机科学与技术学院 38 225 9.0 12.0
2 孙莉 东华大学计算机科学与技术学院 56 452 12.0 17.0
3 何刚 东华大学计算机科学与技术学院 2 15 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (3)
共引文献  (5)
参考文献  (2)
节点文献
引证文献  (9)
同被引文献  (24)
二级引证文献  (21)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(3)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(3)
  • 二级引证文献(0)
2014(3)
  • 引证文献(3)
  • 二级引证文献(0)
2015(2)
  • 引证文献(1)
  • 二级引证文献(1)
2017(3)
  • 引证文献(3)
  • 二级引证文献(0)
2018(4)
  • 引证文献(0)
  • 二级引证文献(4)
2019(16)
  • 引证文献(2)
  • 二级引证文献(14)
2020(2)
  • 引证文献(0)
  • 二级引证文献(2)
研究主题发展历程
节点文献
MapReduce模型
维度
事实
代理键
并行查找
聚合
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程
月刊
1000-3428
31-1289/TP
大16开
上海市桂林路418号
4-310
1975
chi
出版文献量(篇)
31987
总下载数(次)
53
总被引数(次)
317027
论文1v1指导