面向分布式机器学习的大消息广播设计

李振兴; 谢彬; 辛逸杰

文献导航

搜索文章

搜索思路

面向分布式机器学习的大消息广播设计

作者：

李振兴谢彬辛逸杰

基本信息来源于合作网站，原文需代理用户跳转至来源网站获取

深度学习

NCCL

MPI_Bcast

管道链通信

拓扑感知

PCIe链路

摘要：

MPI (Message Passing Interface)专为节点密集型大规模计算集群设计, 然而, 随着MPI+CUDA (Compute Unified Device Architecture)应用程序以及计算节点拥有GPU的计算机集群的出现, 类似于MPI的传统通信库已无法满足. 而在机器学习领域, 也面临着同样的挑战, 如Caff以及CNTK (Microsoft CognitiveToolkit)的深度学习框架, 由于训练过程中, GPU会缓存庞大的数据量, 而大部分机器学习训练的优化算法具有迭代性特点, 导致GPU间的通信数据量大, 通信频率高, 这些已成为限制深度学习训练性能提升的主要因素之一, 虽然推出了像NCCL (Nvidia Collective multi-GPU Communication Library)这种解决深度学习通信问题的集合通信库, 但也存在不兼容MPI等问题. 因此, 设计一种更加高效、符合当前新趋势的通信加速机制便显得尤为重要, 为解决上述新形势下的挑战, 本文提出了两种新型通信广播机制: (1)一种基于MPI_Bcast的管道链PC (Pipelined Chain)通信机制: 为GPU缓存提供高效的节点内外通信. (2)一种适用于多GPU集群系统的基于拓扑感知的管道链TA-PC (Topology-Aware Pipelined Chain)通信机制: 充分利用多GPU节点间的可用PCIe链路. 为了验证提出的新型广播设计, 分别在三种配置多样化的GPU集群上进行了实验: GPU密集型集群RX1、节点密集型集群RX2、均衡型集群RX3.实验中, 将新的设计与MPI+NCCL1 MPI_Bcast进行对比实验, 对于节点内通信和节点间的通信, 分别取得了14倍和16.6倍左右的性能提升; 与NCCL2的对比试验中, 小中型消息取得10倍左右的性能提升, 大型消息取得与其相当的性能水平, 同时TA-PC设计相比于PC设计, 在64GPU集群上实现50%左右的性能提升. 实验结果充分说明,提出的解决方案在可移植性以及性能方面有较大的优势.

内容分析

关键词云

关键词热度

相关文献

推荐文献

根据相关规定，获取原文需跳转至原文服务方进行注册认证身份信息

完成下面三个步骤操作后即可获取文献，阅读后请点击下方页面【继续获取】按钮

钛学术文献服务平台

学术出版新技术应用与公共服务实验室出品

原文合作方

获取文献流程

1.访问原文合作方请等待几秒系统会自动跳转至登录页，首次访问请先注册账号，填写基本信息后，点击【注册】

2.注册后进行实名认证，实名认证成功后点击【返回】

3.检查邮箱地址是否正确，若错误或未填写请填写正确邮箱地址，点击【确认支付】完成获取，文献将在1小时内发送至您的邮箱

*若已注册过原文合作方账号的用户，可跳过上述操作，直接登录后获取原文即可

点击【获取原文】按钮，跳转至合作网站。

首次获取需要在合作网站进行注册。

注册并实名认证，认证后点击【返回】按钮。

确认邮箱信息，点击【确认支付】，订单将在一小时内发送至您的邮箱。

* 若已经注册过合作网站账号，请忽略第二、三步，直接登录即可。

期刊分类
期刊（年）
期刊（期）
期刊推荐

一般工业技术交通运输军事科技冶金工业动力工程化学工业原子能技术大学学报建筑科学无线电电子学与电信技术机械与仪表工业水利工程环境科学与安全科学电工技术石油与天然气工业矿业工程自动化技术与计算机技术航空航天轻工业与手工业金属学与金属工艺

计算机系统应用2020年第9期计算机系统应用2020年第8期计算机系统应用2020年第7期计算机系统应用2020年第6期计算机系统应用2020年第5期计算机系统应用2020年第4期计算机系统应用2020年第3期计算机系统应用2020年第2期计算机系统应用2020年第12期计算机系统应用2020年第11期计算机系统应用2020年第10期计算机系统应用2020年第1期

按字母查找期刊：

A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他

联系合作广告推广: shenyukuan@paperpass.com

篇名	面向分布式机器学习的大消息广播设计
来源期刊	计算机系统应用	学科
关键词	深度学习 NCCL MPI_Bcast 管道链通信拓扑感知 PCIe链路
年，卷（期）	2020,（1）	所属期刊栏目	专论·综述
研究方向		页码范围	1-13
页数	13页	分类号
字数	9654字	语种	中文
DOI	10.15888/j.cnki.csa.007246

序号	姓名	发文数	被引次数	H指数	G指数
1	辛逸杰	1	0	0.0	0.0
2	谢彬	7	23	2.0	4.0
3	李振兴	2	0	0.0	0.0