原文服务方: 河北省科学院学报       
摘要:
当今人类已经进入大数据时代,海量数据处理已成为大数据技术领域的研究热点.Spark是一种典型的基于内存的分布式大数据处理框架,但在Spark的实际应用中出现的数据倾斜问题会对计算效率产生重要影响.本文针对于Spark在各类应用中出现的数据倾斜问题,梳理国内外相关研究进展,对在出现数据倾斜问题后常用的优化方法进行了分析对比,最后对未来的研究方向进行了展望.
推荐文章
大数据环境下基于Spark的Bayes分类算法研究
大数据
Spark
并行流式化
贝叶斯分类
基于Spark的飞机试验数据预处理技术研究
飞行试验
数据预处理
分布式技术
内存计算
Hadoop与Spark应用场景研究
Hadoop
Spark
大数据
生态系统
应用场景
基于Hadoop平台的Spark快数据推荐算法分析与应用
Hadoop
Spark
快数据
ALS算法
PageRank算法
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Spark数据倾斜问题研究
来源期刊 河北省科学院学报 学科
关键词 大数据 Spark 数据倾斜 数据处理
年,卷(期) 2020,(1) 所属期刊栏目
研究方向 页码范围 1-7
页数 7页 分类号 TP311
字数 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 王文礼 河北经贸大学信息技术学院 3 1 1.0 1.0
2 贾芝婷 河北经贸大学信息技术学院 2 0 0.0 0.0
3 耿珊珊 河北经贸大学信息技术学院 3 2 1.0 1.0
4 张占峰 河北经贸大学信息技术学院 3 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (30)
共引文献  (14)
参考文献  (17)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1993(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(1)
  • 参考文献(0)
  • 二级参考文献(1)
2013(10)
  • 参考文献(1)
  • 二级参考文献(9)
2014(1)
  • 参考文献(0)
  • 二级参考文献(1)
2015(7)
  • 参考文献(1)
  • 二级参考文献(6)
2016(9)
  • 参考文献(5)
  • 二级参考文献(4)
2017(7)
  • 参考文献(6)
  • 二级参考文献(1)
2018(3)
  • 参考文献(2)
  • 二级参考文献(1)
2019(2)
  • 参考文献(2)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
大数据
Spark
数据倾斜
数据处理
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
河北省科学院学报
季刊
1001-9383
13-1081/N
大16开
1984-01-01
chi
出版文献量(篇)
1648
总下载数(次)
0
论文1v1指导