原文服务方: 现代电子技术       
摘要:
讨论在Fermi结构GPU使用CUDA对GEMM(单精度和双精度)算法进行优化,以及Fermi体系结构的新特性(如缓存)对性能的影响。GPU缓存一方面可以提高处理器在运行时数据访问的局部性,另一方面使得代码性能对与性能相关算法参数的依赖变得不可预测。自动优化技术可以用来解决这一问题。自动优化的SGEMM和DGEMM代码在Tesla C2050 GPU上达到了563GFlops和253GFlops的性能。代码使用CUDA和C语言进行实现,未进行二进制代码级别的优化。
推荐文章
GPU矩阵乘法和FFT算法的性能优化
GPU程序设计
矩阵乘法
快速傅里叶变换
性能优化技术
GPU矩阵乘法和FFT算法的性能优化
GPU程序设计
矩阵乘法
快速傅里叶变换
性能优化技术
大数乘法的GPU加速实现
大数乘法
图形处理器
全同态加密
基于CUDA的稀疏矩阵与矢量乘法的优化
CUDA
GPGPU
CSR
并行计算
稀疏矩阵与矢量相乘
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 缓存结构GPU矩阵乘法算法的自动优化
来源期刊 现代电子技术 学科
关键词 GPU程序设计 矩阵乘法 自动优化 GEMM模板
年,卷(期) 2014,(10) 所属期刊栏目 电子与信息器件
研究方向 页码范围 137-140
页数 4页 分类号 TN40|TP312
字数 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李晓雯 防空兵学院指挥控制系 3 11 2.0 3.0
2 崔翔 河南大学计算机与信息工程学院 7 14 2.0 3.0
3 殷瑞杰 防空兵学院指挥控制系 1 0 0.0 0.0
4 刘强 防空兵学院指挥控制系 2 0 0.0 0.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (6)
共引文献  (3)
参考文献  (1)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2000(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(2)
  • 参考文献(0)
  • 二级参考文献(2)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
GPU程序设计
矩阵乘法
自动优化
GEMM模板
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
现代电子技术
半月刊
1004-373X
61-1224/TN
大16开
1977-01-01
chi
出版文献量(篇)
23937
总下载数(次)
0
总被引数(次)
135074
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导