作者:
基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
针对基于Spark的类别数据互信息的并行计算在数据倾斜情况下会造成某一个或几个reducer负载过重降低集群性能的现状,重新定义数据倾斜模型来量化由Spark创建的分区之间的数据倾斜度,提出数据虚拟划分算法DVP.通过将同一个键添加随机前缀更改为几个不同的键,减少单个任务处理过量数据的情况;在一个24节点的Spark集群中实现DVP算法,通过与Spark传统的哈希算法DEFH比较,实验验证了DVP算法减轻了Spark Shuffle过程中的数据倾斜,减少了在负载均衡方面的耗时.
推荐文章
Spark数据倾斜问题研究
大数据
Spark
数据倾斜
数据处理
自动计算分解和数据划分算法研究
并行编译
数据分布
计算划分
基于朋友关系变迁演化的社区划分算法
机会网络
朋友关系
社区划分
数据集
基于小世界网络的邮件社区划分算法
社会网络
邮件社区
微-宏聚类
小世界网络
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于Spark的倾斜数据虚拟划分算法
来源期刊 计算机工程与设计 学科
关键词 数据倾斜 虚拟划分 类别数据 互信息并行计算 负载均衡
年,卷(期) 2021,(8) 所属期刊栏目 软件与算法|Software and Arithmetic
研究方向 页码范围 2271-2276
页数 6页 分类号 TP311
字数 语种 中文
DOI 10.16208/j.issn1000-7024.2021.08.024
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (60)
共引文献  (65)
参考文献  (9)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1988(1)
  • 参考文献(0)
  • 二级参考文献(1)
1990(2)
  • 参考文献(0)
  • 二级参考文献(2)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(2)
  • 参考文献(0)
  • 二级参考文献(2)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(4)
  • 参考文献(0)
  • 二级参考文献(4)
2011(3)
  • 参考文献(0)
  • 二级参考文献(3)
2012(8)
  • 参考文献(0)
  • 二级参考文献(8)
2013(5)
  • 参考文献(0)
  • 二级参考文献(5)
2014(6)
  • 参考文献(0)
  • 二级参考文献(6)
2015(12)
  • 参考文献(0)
  • 二级参考文献(12)
2016(11)
  • 参考文献(2)
  • 二级参考文献(9)
2017(4)
  • 参考文献(1)
  • 二级参考文献(3)
2018(3)
  • 参考文献(2)
  • 二级参考文献(1)
2019(3)
  • 参考文献(3)
  • 二级参考文献(0)
2020(1)
  • 参考文献(1)
  • 二级参考文献(0)
2021(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
数据倾斜
虚拟划分
类别数据
互信息并行计算
负载均衡
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与设计
月刊
1000-7024
11-1775/TP
大16开
北京142信箱37分箱
82-425
1980
chi
出版文献量(篇)
18818
总下载数(次)
45
论文1v1指导