基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
[目的]为应对超大规模计算系统所带来的监控数据风暴、作业调度稳定性及灵活性、网络复杂度及高效性等实际挑战,本文分享了近期真实实践的经验和解决办法.[应用背景]当计算系统从P级逐渐向E级过渡,节点数量可超过10000个.在计算系统设计之初就需要确定网络拓扑的选型,而在系统的具体使用中更是离不开高效的调度和及时的监控.[方法]本文采用了基于动态负载均衡的分布式监控架构设计,基于高速缓存的分布式告警架构设计,基于SLURM的源码和配置优化,以及nd-Torus网络拓扑仿真对比等相关技术手段,基本满足了实际业务使用需求.[结果]数据表明,对于~10000节点的计算系统,实时告警数据库表的数据量大小基本可以控制在100万条以内.优化后的SLURM调度系统,可满足系统的业务级调度需求.网络方面,6D-Torus网络由于网络直径低、平均通信距离短,性能和网卡线缆用量较Fat-Tree网络和3D-Torus有一定提升,饱和吞吐率超过40%.[结论]分布式监控架构和告警架构可以有效解决监控数据风暴问题.SLURM在优化后可以实现对超大规模计算系统的作业调度功能.就线缆和交换机使用数量而言,6D-Torus相对于传统Fat-Tree网络更加经济,且性能优于3D-Torus,更适合超大规模计算系统.
推荐文章
超大规模高中理科实验室数量计算方法
超大规模高中
理科实验室
数量计算
面向超大规模有限元计算的通用可视化系统 SiPESC .POST 的设计与实现
有限元可视化系统
超大规模
SiPESC .POST
过滤器
插件
体系结构
超大规模高中专用教室数量的计算方法
超大规模高中
专用教室
数量
计算方法
超大规模变量结构敏度求解技术研究
超大规模变量优化
解析法
微分刚度矩阵
HAJIF
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向超大规模计算系统的监控、调度及网络优化实践
来源期刊 数据与计算发展前沿 学科
关键词 计算 监控 作业调度 网络
年,卷(期) 2020,(1) 所属期刊栏目 专刊:高性能与高通量计算及应用
研究方向 页码范围 55-69
页数 15页 分类号
字数 10928字 语种 中文
DOI 10.11871/jfdc.issn.2096-742X.2020.01.005
五维指标
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (18)
共引文献  (95)
参考文献  (14)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1991(1)
  • 参考文献(1)
  • 二级参考文献(0)
1994(2)
  • 参考文献(0)
  • 二级参考文献(2)
1999(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2002(3)
  • 参考文献(0)
  • 二级参考文献(3)
2003(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(3)
  • 参考文献(1)
  • 二级参考文献(2)
2005(2)
  • 参考文献(0)
  • 二级参考文献(2)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(3)
  • 参考文献(1)
  • 二级参考文献(2)
2011(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2013(3)
  • 参考文献(3)
  • 二级参考文献(0)
2016(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(1)
  • 参考文献(1)
  • 二级参考文献(0)
2019(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
计算
监控
作业调度
网络
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
数据与计算发展前沿
双月刊
2096-742X
10-1649/TP
大16开
北京市海淀区中关村南四街4号
2-493
2008
chi
出版文献量(篇)
135
总下载数(次)
3
总被引数(次)
9
论文1v1指导