基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
Spark系统是基于Map-Reduce模型的大数据处理框架.Spark能够充分利用集群的内存,从而加快数据的处理速度.Spark按照功能把内存分成不同的区域:Shuffle Memory和Storage Memory,Unroll Memory,不同的区域有不同的使用特点.首先,测试并分析了Shuffle Memory和Storage Memory的使用特点.RDD是Spark系统最重要的抽象,能够缓存在集群的内存中;在内存不足时,需要淘汰部分RDD分区.接着,提出了一种新的RDD分布式权值缓存策略,通过RDD分区的存储时间、大小、使用次数等来分析RDD分区的权值,并根据RDD的分布式特征对需要淘汰的RDD分区进行选择.最后,测试和分析了多种缓存策略的性能.
推荐文章
Spark中一种高效RDD自主缓存替换策略研究
Spark
弹性分布式数据集
缓存替换
内存资源利用
基于多级缓存的内存管理方案
内存管理
多级缓存
快速分配
并行计算框架Spark的自适应缓存管理策略
并行计算
缓存管理策略
Spark
弹性分布式数据集
一种Spark下分布式DBN并行加速策略
分布内存计算框架
缓存替换
范围分区
深度信念网络
数据倾斜
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 Spark内存管理及缓存策略研究
来源期刊 计算机科学 学科 工学
关键词 大数据 Spark内存管理 RDD缓存 缓存策略
年,卷(期) 2017,(6) 所属期刊栏目 2016年全国信息存储技术学术年会
研究方向 页码范围 31-35,74
页数 6页 分类号 TP311
字数 6791字 语种 中文
DOI 10.11896/j.issn.1002-137X.2017.06.005
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘芳 国防科学技术大学计算机学院 43 527 12.0 22.0
2 肖侬 国防科学技术大学计算机学院 76 1481 18.0 37.0
3 余松平 国防科学技术大学计算机学院 3 25 1.0 3.0
4 孟红涛 国防科学技术大学计算机学院 1 25 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (25)
同被引文献  (25)
二级引证文献  (15)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(11)
  • 引证文献(11)
  • 二级引证文献(0)
2019(19)
  • 引证文献(13)
  • 二级引证文献(6)
2020(10)
  • 引证文献(1)
  • 二级引证文献(9)
研究主题发展历程
节点文献
大数据
Spark内存管理
RDD缓存
缓存策略
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
论文1v1指导