基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
运行数据是大数据系统中增长最快、最为复杂也是最有价值的数据资源之一.基于运行数据,软件开发者可以分析关于软件质量和开发模型的重要信息.Spark作为一个分布式系统,在运行过程中会产生大量的运行数据,包括日志数据、监控数据以及任务图数据.开发者可以基于运行数据对系统进行参数调优.然而该系统所涉及的参数种类繁多、影响多样且难以评估,若对系统了解不足,进行参数调优存在较大的困难.提出运行数据历史库的概念,历史库中存储的是以往运行任务的特征信息以及运行配置信息.同时提出了基于历史库搜索的参数优化模型,并实验验证了本文提出的参数优化模型对用户任务性能提升具有较好的效果.
推荐文章
威布尔分布在高压开关产品运行数据分析中的应用
高压开关产品
SF6气体泄漏
威布尔分布
可靠性分析
PDM:基于Hadoop的并行数据分析系统
云计算
Hadoop
并行算法
数据挖掘
社会网络分析
基于Spark的分布式大数据分析建模系统的设计与实现
分布式大数据
Spark
数据分析
数据建模
非结构化数据
故障诊断
基于数据特性的Spark任务性能优化
分布式系统
大数据
Spark
数据特性
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于运行数据分析的Spark任务参数优化
来源期刊 计算机工程与科学 学科 工学
关键词 大数据 运行数据 数据分析 参数优化 Spark
年,卷(期) 2016,(1) 所属期刊栏目 高性能计算
研究方向 页码范围 11-19
页数 9页 分类号 TP391
字数 9561字 语种 中文
DOI 10.3969/j.issn.1007-130X.2016.01.002
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 曹越 清华大学软件学院 19 126 7.0 10.0
2 李峰 清华大学软件学院 14 125 7.0 11.0
3 陈侨安 清华大学软件学院 1 37 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (2)
节点文献
引证文献  (37)
同被引文献  (48)
二级引证文献  (60)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(4)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(4)
  • 二级引证文献(0)
2016(4)
  • 引证文献(4)
  • 二级引证文献(0)
2017(14)
  • 引证文献(9)
  • 二级引证文献(5)
2018(29)
  • 引证文献(11)
  • 二级引证文献(18)
2019(34)
  • 引证文献(10)
  • 二级引证文献(24)
2020(16)
  • 引证文献(3)
  • 二级引证文献(13)
研究主题发展历程
节点文献
大数据
运行数据
数据分析
参数优化
Spark
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与科学
月刊
1007-130X
43-1258/TP
大16开
湖南省长沙市开福区德雅路109号国防科技大学计算机学院
42-153
1973
chi
出版文献量(篇)
8622
总下载数(次)
11
总被引数(次)
59030
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导