基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%.
推荐文章
基于申威众核处理器的NSGA-Ⅱ并行和优化方法
申威众核处理器
NSGA-Ⅱ
并行遗传算法
多目标
并行优化
面向申威众核处理器的LZMA并行算法设计与优化
并行计算
异构众核处理器
LZMA
压缩算法
快速多极子方法在申威众核处理器上的实现和优化
快速多极子方法
异构众核处理器
N体问题
性能优化
面向众核处理器的独立调试系统设计方法
硅调试
片上网络
踪迹数据
调试事件矩阵
时间戳
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向国产申威26010众核处理器的SpMV实现与优化
来源期刊 软件学报 学科 工学
关键词 稀疏矩阵向量乘 SpMV 申威26010处理器 异构众核并行 自适应优化
年,卷(期) 2018,(12) 所属期刊栏目 计算机体系结构
研究方向 页码范围 3921-3932
页数 12页 分类号 TP303
字数 5549字 语种 中文
DOI 10.13328/j.cnki.jos.005309
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘芳芳 中国科学院软件研究所并行软件与计算科学实验室 13 88 4.0 9.0
5 吴长茂 中国科学院软件研究所并行软件与计算科学实验室 4 7 2.0 2.0
6 袁欣辉 1 3 1.0 1.0
7 敖玉龙 1 3 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (7)
节点文献
引证文献  (3)
同被引文献  (8)
二级引证文献  (0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2010(1)
  • 参考文献(1)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(1)
  • 参考文献(1)
  • 二级参考文献(0)
2018(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
2020(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
稀疏矩阵向量乘
SpMV
申威26010处理器
异构众核并行
自适应优化
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
软件学报
月刊
1000-9825
11-2560/TP
16开
北京8718信箱
82-367
1990
chi
出版文献量(篇)
5820
总下载数(次)
36
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导