基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
BLAS是当前科学计算领域重要的底层支持数学库之一,其中的3级BLAS函数应用最为广泛.本文基于国产申威1600平台,提出了一种基础线性代数库BLAS的三级函数通用矩阵乘GEMM的高性能实现方法.在单核上,使用乘加指令、循环展开、软件流水线指令重排、SIMD向量化运算、寄存器分块技术等与平台架构相关的技术手段,实现汇编级手工优化;在多核上,提出了适用于该平台的多线程加速方案.实验结果显示,在单核串行性能测试中,与知名开源数学库GotoBLAS相比,我们实现了平均4.72倍的加速效果;在多核并行扩展测试中,4线程版的性能则平均达到了单线程版性能的3.02倍.
推荐文章
基于申威众核处理器的NSGA-Ⅱ并行和优化方法
申威众核处理器
NSGA-Ⅱ
并行遗传算法
多目标
并行优化
基于申威26010处理器的扩展函数库实现与优化
浮点运算
数学函数
申威26010处理器
数据分段
指令调度
基于申威众核处理器的NSGA-Ⅱ并行和优化方法
申威众核处理器
NSGA-Ⅱ
并行遗传算法
多目标
并行优化
快速多极子方法在申威众核处理器上的实现和优化
快速多极子方法
异构众核处理器
N体问题
性能优化
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于申威1600的3级BLAS GEMM函数优化
来源期刊 计算机系统应用 学科
关键词 申威1600 三级BLAS GEMM 高性能计算 多核
年,卷(期) 2016,(12) 所属期刊栏目 研究开发
研究方向 页码范围 234-239
页数 6页 分类号
字数 5174字 语种 中文
DOI 10.15888/j.cnki.csa.005456
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 杨超 中国科学院软件研究所 114 799 15.0 23.0
2 张鹏 中国科学院软件研究所 220 1605 21.0 32.0
6 刘芳芳 中国科学院软件研究所 13 88 4.0 9.0
7 刘昊 中国科学院软件研究所 88 91 5.0 8.0
11 蒋丽娟 中国科学院软件研究所 3 7 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (20)
共引文献  (13)
参考文献  (10)
节点文献
引证文献  (2)
同被引文献  (4)
二级引证文献  (0)
1998(1)
  • 参考文献(0)
  • 二级参考文献(1)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(2)
  • 参考文献(1)
  • 二级参考文献(1)
2003(3)
  • 参考文献(0)
  • 二级参考文献(3)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(4)
  • 参考文献(2)
  • 二级参考文献(2)
2010(2)
  • 参考文献(0)
  • 二级参考文献(2)
2011(8)
  • 参考文献(4)
  • 二级参考文献(4)
2012(4)
  • 参考文献(0)
  • 二级参考文献(4)
2014(2)
  • 参考文献(2)
  • 二级参考文献(0)
2015(1)
  • 参考文献(1)
  • 二级参考文献(0)
2016(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
申威1600
三级BLAS
GEMM
高性能计算
多核
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机系统应用
月刊
1003-3254
11-2854/TP
大16开
北京中关村南四街4号
82-558
1991
chi
出版文献量(篇)
10349
总下载数(次)
20
总被引数(次)
57078
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导