基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
该文在ARMy8 64位多核处理器上基于OpenBLAS首次设计、实现并优化了四精度矩阵乘法(Quadruple precision General Matrix-Matrix Multiplication,QGEMM).由于浮点计算中不可避免地引入舍入误差,双精度矩阵乘法(DGEMM)在某些情况下不能给出令人满意的数值结果,因此需要高精度或多精度算法来实现更精确的计算.Double-double算术是一种较为有效和广泛使用的手段.文中采用double-double数据格式构建结构体存储四精度浮点数据;基于OpenBLAS中的稠密矩阵计算的分块算法,增加四精度数据格式的相关的头文件和源文件,并用汇编代码撰写文中所提出的QGEMM的核心内核;利用无误差变换技术,调整并优化内核中的算法流程,避免规格化操作步骤造成的数据强制依赖关系;通过分析算法的数据依赖关系,设计寄存器的分配和轮转策略,优化指令调度顺序,开发指令级并行性,提高QGEMM的实际性能.根据具体算法使用混合乘加指令(FMA)的程度不同,文中采用了算法理论峰值性能这一概念,其有别于机器理论峰值的概念,能更好地评估文中所提出的QGEMM的实际效率.数值实验表明:文中通过汇编代码实现并优化的QGEMM性能最高达到19.7 Gflops,效率为在ARMv864位多核处理器平台上QGEMM算法理论峰值性能的82.1%,在满足数值结果精度要求的同时,其计算速度约是由C语言撰写的未优化的QGEMM和MBLAS中QGEMM的5.8倍,是编译器GCC实现的long double数据格式的QGEMM的24倍.同时数值实验还显示文中提出的QGEMM针对不同规模的矩阵具有较好的线程可扩展性.
推荐文章
一种面向64位 DSP处理器的可重构 ALU 研究及设计
DSP处理器
可重构计算
计算单元
ALU
多核处理器核间的通信研究与实现
多核处理器
片上网络
拓扑结构
数据传输
64位RISC微处理器的结构设计
RISC
微处理器
存储器管理单元
五级流水线
体系结构
多核处理器中的超越函数协处理器设计
多核处理器
协处理器
分段线性逼近
四路算数通道
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向ARMv8 64位多核处理器的QGEMM设计与实现
来源期刊 计算机学报 学科 工学
关键词 ARMv8 64位多核处理器 QGEMM 四精度 double-double数据格式 long double数据格式 OpenBLAS
年,卷(期) 2017,(9) 所属期刊栏目 高性能计算
研究方向 页码范围 2018-2029
页数 12页 分类号 TP391
字数 9536字 语种 中文
DOI 10.11897/SP.J.1016.2017.02018
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杨灿群 国防科学技术大学计算机学院 19 74 5.0 7.0
5 王锋 国防科学技术大学计算机学院 9 39 4.0 6.0
6 郭敏 国防科学技术大学计算机学院 6 75 3.0 6.0
7 左克 国防科学技术大学计算机学院 5 21 2.0 4.0
8 姜浩 国防科学技术大学计算机学院 4 12 2.0 3.0
9 杜琦 国防科学技术大学计算机学院 2 6 1.0 2.0
10 全哲 湖南大学信息科学与工程学院 2 12 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (4)
共引文献  (2)
参考文献  (8)
节点文献
引证文献  (5)
同被引文献  (7)
二级引证文献  (1)
1971(1)
  • 参考文献(1)
  • 二级参考文献(0)
2002(1)
  • 参考文献(1)
  • 二级参考文献(0)
2003(1)
  • 参考文献(1)
  • 二级参考文献(0)
2005(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(4)
  • 参考文献(2)
  • 二级参考文献(2)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2012(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2018(3)
  • 引证文献(3)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
2020(1)
  • 引证文献(0)
  • 二级引证文献(1)
研究主题发展历程
节点文献
ARMv8 64位多核处理器
QGEMM
四精度
double-double数据格式
long double数据格式
OpenBLAS
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
论文1v1指导