基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
分布式环境下大规模维表关联技术是当前在线大数据分析的关键技术之一,其广泛应用于实时推荐、实时分析等领域.维表关联是指将流数据和离线存储的维表数据进行关联,并根据这种关联进行数据处理.首先,对已有的维表连接技术方案进行了研究,调研了相关的优化技术和主流分布式引擎的设计路线,主要通过优化维表数据查询提高性能,但传统的优化方式受到维表规模和数据流速的限制.其次,针对已有优化技术在分布式环境下对集群整体考虑使用的不足,提出了适用于对离线的批数据和实时的流数据进行混合计算的计算模型,然后提出了一种单点读取维表数据,切分后进行分发和计算的维表关联数据方式,并优化了维表关联计算逻辑,使之能适应更高的维表规模,且不再局限于对数据的连接.最后,在流计算引擎Apache Flink上实现了提出的维表关联技术和传统维表关联技术,通过实验在阿里巴巴"双十一"产生的数据上对吞吐量和延迟进行了对比,证明了对面向分布式流计算的维表关联技术的优化的有效性.
推荐文章
大规模分布式虚拟环境中的同步问题
分布式虚拟环境
同步
并发控制
分布式大规模交通网络实时模拟系统
分布式
大规模
交通网络
实时模拟
大规模数据集的分布式索引机制研究
大规模数据集
分布式系统
索引结构
B+树
聚簇索引
大规模分布式入侵检测系统的体系结构模型
分布式
大规模
入侵检测系统
体系结构
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 分布式环境下大规模维表关联技术优化
来源期刊 计算机科学与探索 学科 工学
关键词 分布式计算 维表关联 缓存技术 Apache Flink
年,卷(期) 2022,(2) 所属期刊栏目 数据库技术|Database Technology
研究方向 页码范围 337-347
页数 11页 分类号 TP311
字数 语种 中文
DOI 10.3778/j.issn.1673-9418.2009100
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2022(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
分布式计算
维表关联
缓存技术
Apache Flink
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学与探索
月刊
1673-9418
11-5602/TP
大16开
北京市海淀区北四环中路211号北京619信箱26分箱
82-560
2007
chi
出版文献量(篇)
2215
总下载数(次)
4
总被引数(次)
10748
论文1v1指导