基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
MPI (Message Passing Interface)专为节点密集型大规模计算集群设计, 然而, 随着MPI+CUDA (Compute Unified Device Architecture)应用程序以及计算节点拥有GPU的计算机集群的出现, 类似于MPI的传统通信库已无法满足. 而在机器学习领域, 也面临着同样的挑战, 如Caff以及CNTK (Microsoft CognitiveToolkit)的深度学习框架, 由于训练过程中, GPU会缓存庞大的数据量, 而大部分机器学习训练的优化算法具有迭代性特点, 导致GPU间的通信数据量大, 通信频率高, 这些已成为限制深度学习训练性能提升的主要因素之一, 虽然推出了像NCCL (Nvidia Collective multi-GPU Communication Library)这种解决深度学习通信问题的集合通信库, 但也存在不兼容MPI等问题. 因此, 设计一种更加高效、符合当前新趋势的通信加速机制便显得尤为重要, 为解决上述新形势下的挑战, 本文提出了两种新型通信广播机制: (1)一种基于MPI_Bcast的管道链PC (Pipelined Chain)通信机制: 为GPU缓存提供高效的节点内外通信. (2)一种适用于多GPU集群系统的基于拓扑感知的管道链TA-PC (Topology-Aware Pipelined Chain)通信机制: 充分利用多GPU节点间的可用PCIe链路. 为了验证提出的新型广播设计, 分别在三种配置多样化的GPU集群上进行了实验: GPU密集型集群RX1、节点密集型集群RX2、均衡型集群RX3.实验中, 将新的设计与MPI+NCCL1 MPI_Bcast进行对比实验, 对于节点内通信和节点间的通信, 分别取得了14倍和16.6倍左右的性能提升; 与NCCL2的对比试验中, 小中型消息取得10倍左右的性能提升, 大型消息取得与其相当的性能水平, 同时TA-PC设计相比于PC设计, 在64GPU集群上实现50%左右的性能提升. 实验结果充分说明,提出的解决方案在可移植性以及性能方面有较大的优势.
推荐文章
基于消息的分布式控制程序构建
分布式控制程序
复杂系统
规则
消息体系
消息流图
面向广播电视监测系统的分布式存储系统高可用性设计及异地容灾
广播电视监测
分布式系统
对象存储
异地容灾
基于ZeroMQ & JSON的分布式测控系统消息通信架构设计
消息中间件
ZeroMQ
消息管道
消息通信架构
基于发布订阅的分布式监控主动消息交互研究
调度监控系统
公共信息模型
发布订阅
交互接口
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向分布式机器学习的大消息广播设计
来源期刊 计算机系统应用 学科
关键词 深度学习 NCCL MPI_Bcast 管道链通信 拓扑感知 PCIe链路
年,卷(期) 2020,(1) 所属期刊栏目 专论·综述
研究方向 页码范围 1-13
页数 13页 分类号
字数 9654字 语种 中文
DOI 10.15888/j.cnki.csa.007246
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 辛逸杰 1 0 0.0 0.0
2 谢彬 7 23 2.0 4.0
3 李振兴 2 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (3)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(1)
  • 参考文献(1)
  • 二级参考文献(0)
2020(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
深度学习
NCCL
MPI_Bcast
管道链通信
拓扑感知
PCIe链路
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机系统应用
月刊
1003-3254
11-2854/TP
大16开
北京中关村南四街4号
82-558
1991
chi
出版文献量(篇)
10349
总下载数(次)
20
总被引数(次)
57078
论文1v1指导