原文服务方: 计算机应用研究       
摘要:
在数据统计分析查询中表间的等值连接是常用的操作之一,但代价较高.大数据环境下大表之间等值连接的效率更低.为了解决该问题,提出了一种基于Spark的两表等值连接过程优化方法.首先根据数据价值密度特征构建Bloom filter完成表的过滤操作;其次结合simi-join和partition join两者的优势,对过滤后的单侧表使用贪心算法进行拆分;最后对拆分后的子集进行连接,因此把两大表的连接过程转换为分阶段进行的两小表连接.代价分析和实验结果表明,该算法与现有基于Spark的连接操作相比,不仅在性能上得到了提升,而且当出现数据倾斜时对算法效率影响较小.
推荐文章
Spark上的等值连接优化
Spark
SQL
大数据分析
等值连接
内存计算
瞬时液相扩散连接过程中的关键参数及其选用原则
瞬时液相扩散
中间层
等温凝固
关键参数
裂纹扩展和连接过程的近场动力学数值模拟
近场动力学理论
裂纹扩展和连接
数值模拟
基于有限差分法的高层建筑物雷电连接过程模拟研究
有限差分法
高层建筑物
数值模拟
连接过程
雷电
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark的两表等值连接过程优化
来源期刊 计算机应用研究 学科
关键词 Spark 等值连接 大数据 优化 拆分
年,卷(期) 2019,(2) 所属期刊栏目 软件技术研究
研究方向 页码范围 486-489
页数 4页 分类号 TP391
字数 语种 中文
DOI 10.19734/j.issn.1001-3695.2017.08.0710
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 郑延斌 河南师范大学计算机与信息工程学院 64 460 11.0 18.0
2 张子栋 集美大学计算机工程学院 7 65 2.0 7.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (18)
共引文献  (35)
参考文献  (5)
节点文献
引证文献  (2)
同被引文献  (6)
二级引证文献  (0)
1990(1)
  • 参考文献(0)
  • 二级参考文献(1)
1996(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2013(6)
  • 参考文献(2)
  • 二级参考文献(4)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
Spark
等值连接
大数据
优化
拆分
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机应用研究
月刊
1001-3695
51-1196/TP
大16开
1984-01-01
chi
出版文献量(篇)
21004
总下载数(次)
0
总被引数(次)
238385
论文1v1指导