基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和Repartition Join性能较差,如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将Simi-Join与Partition Join的优势相结合,并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍.
推荐文章
基于Spark的两表等值连接过程优化
Spark
等值连接
大数据
优化
拆分
基于Spark的两表等值连接过程优化
Spark
等值连接
大数据
优化
拆分
Spark Streaming写入HBase的实现和优化
Spark Streaming
HBase
大数据
内存计算
流处理
Spark并行计算框架的内存优化
Spark
性能优化
堆内存
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Spark上的等值连接优化
来源期刊 华东师范大学学报(自然科学版) 学科 工学
关键词 Spark SQL 大数据分析 等值连接 内存计算
年,卷(期) 2014,(5) 所属期刊栏目 关键技术
研究方向 页码范围 263-270,280
页数 9页 分类号 TP392
字数 6087字 语种 中文
DOI 10.3969/j.issn.1000-5641.2014.05.023
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杜小勇 数据工程与知识工程教育部重点实验室(中国人民大学) 2 28 2.0 2.0
5 卞昊穹 数据工程与知识工程教育部重点实验室(中国人民大学) 1 24 1.0 1.0
9 陈跃国 数据工程与知识工程教育部重点实验室(中国人民大学) 2 29 2.0 2.0
13 高彦杰 数据工程与知识工程教育部重点实验室(中国人民大学) 1 24 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (1)
节点文献
引证文献  (24)
同被引文献  (37)
二级引证文献  (113)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(3)
  • 引证文献(2)
  • 二级引证文献(1)
2016(28)
  • 引证文献(9)
  • 二级引证文献(19)
2017(27)
  • 引证文献(4)
  • 二级引证文献(23)
2018(23)
  • 引证文献(1)
  • 二级引证文献(22)
2019(37)
  • 引证文献(7)
  • 二级引证文献(30)
2020(18)
  • 引证文献(0)
  • 二级引证文献(18)
研究主题发展历程
节点文献
Spark
SQL
大数据分析
等值连接
内存计算
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
华东师范大学学报(自然科学版)
双月刊
1000-5641
31-1298/N
16开
上海市中山北路3663号
4-359
1955
chi
出版文献量(篇)
2430
总下载数(次)
5
总被引数(次)
17499
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导