基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略(Self-Adaptive Cache Management,SACM),包括缓存自动选择算法(Selection)、并行缓存清理算法(Parallel Cache Cleanup,PCC)和权重缓存替换算法(Lowest Weight Replacement,LWR).其中,缓存自动选择算法通过分析任务的DAG(Directed Acyclic Graph) 结构,识别重用的RDD并自动缓存.并行缓存清理算法异步清理无价值的RDD,提高集群内存利用率.权重替换算法通过权重值判定替换目标,避免重新计算复杂RDD产生的任务延时,保障资源瓶颈下的计算效率.实验表明:我们的策略提高了Spark的任务执行效率,并使内存资源得到有效利用.
推荐文章
Spark并行计算框架的内存优化
Spark
性能优化
堆内存
Spark中一种高效RDD自主缓存替换策略研究
Spark
弹性分布式数据集
缓存替换
内存资源利用
基于GPU-Hadoop的并行计算框架研究与实现
云计算
图形处理器
并行计算
Hadoop
海洋流场可视化
MapReduce
基于分布/并行计算框架求解多学科设计优化问题
分布/并行策略
计算框架
多学科设计优化
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 并行计算框架Spark的自适应缓存管理策略
来源期刊 电子学报 学科 工学
关键词 并行计算 缓存管理策略 Spark 弹性分布式数据集
年,卷(期) 2017,(2) 所属期刊栏目 学术论文
研究方向 页码范围 278-284
页数 7页 分类号 TP311
字数 5292字 语种 中文
DOI 10.3969/j.issn.0372-2112.2017.02.003
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 于炯 新疆大学信息科学与工程学院 176 1315 20.0 28.0
2 卞琛 新疆大学信息科学与工程学院 25 209 8.0 13.0
4 修位蓉 新疆大学信息科学与工程学院 6 42 3.0 6.0
5 英昌甜 新疆大学信息科学与工程学院 29 254 11.0 14.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (3)
共引文献  (2)
参考文献  (2)
节点文献
引证文献  (24)
同被引文献  (55)
二级引证文献  (21)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(0)
  • 二级参考文献(1)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(2)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(2)
  • 二级引证文献(0)
2017(2)
  • 引证文献(2)
  • 二级引证文献(0)
2018(12)
  • 引证文献(8)
  • 二级引证文献(4)
2019(18)
  • 引证文献(12)
  • 二级引证文献(6)
2020(13)
  • 引证文献(2)
  • 二级引证文献(11)
研究主题发展历程
节点文献
并行计算
缓存管理策略
Spark
弹性分布式数据集
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
电子学报
月刊
0372-2112
11-2087/TN
大16开
北京165信箱
2-891
1962
chi
出版文献量(篇)
11181
总下载数(次)
11
总被引数(次)
206555
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导