基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
GPU由于其计算能力高达数TFLOPS,被高性能计算领域用于加速并行运算.但GPU较低的峰值性能利用率和功耗效率,已经成为了系统性能进一步提升的瓶颈.为了解决这个问题,作者开始研究将高性能DSP用于通用高性能计算领域.为了高效支撑通用高性能计算,文中提出了高性能DSP的结构框架,并通过映射GotoBLAS库到该结构上,建立了GEMM在该结构上的性能模型.作者研究了影响GEMM效率的主要因素,包括性能、存储层次、核的大小以及核的数量.文中总结了一些有指导意义的结论用于构建面向通用高性能计算的高效DSP.实验结果表明,通过尽可能少的硬件代价,可以在TFLOPS DSP上获得接近峰值的性能.
推荐文章
基于DSP的高性能通用并行弹载计算机设计与实现
弹载计算机
并行处理
TS201
FPGA
高性能LS-DSP的逻辑设计与低功耗设计
数据路径
ALU
乘法器
地址产生器
总线低功耗
海明距离
高性能定点DSP位处理单元(BMU)设计
位处理单元
定点DSP
桶形移位
指数提取
归一化
基于高性能DSP的软件无线电平台设计
软件无线电
直接序列扩频
TigerSHARC201
DSP
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 面向通用HPC的高性能DSP设计权衡
来源期刊 计算机学报 学科 工学
关键词 高性能计算 矩阵乘法 数字信号处理器 模型 设计权衡
年,卷(期) 2013,(4) 所属期刊栏目 计算机体系结构
研究方向 页码范围 790-798
页数 9页 分类号 TP302
字数 6440字 语种 中文
DOI 10.3724/SP.J.1016.2013.00790
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 陈书明 国防科学技术大学计算机学院 36 224 7.0 13.0
2 王耀华 国防科学技术大学计算机学院 4 13 2.0 3.0
3 张凯 国防科学技术大学计算机学院 2 9 1.0 2.0
4 宁希 国防科学技术大学计算机学院 1 8 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (2)
共引文献  (5)
参考文献  (9)
节点文献
引证文献  (8)
同被引文献  (9)
二级引证文献  (24)
1991(1)
  • 参考文献(1)
  • 二级参考文献(0)
1998(1)
  • 参考文献(1)
  • 二级参考文献(0)
2004(1)
  • 参考文献(1)
  • 二级参考文献(0)
2006(3)
  • 参考文献(2)
  • 二级参考文献(1)
2007(1)
  • 参考文献(1)
  • 二级参考文献(0)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(2)
  • 参考文献(2)
  • 二级参考文献(0)
2011(1)
  • 参考文献(1)
  • 二级参考文献(0)
2013(1)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(1)
  • 二级引证文献(0)
2013(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(6)
  • 引证文献(5)
  • 二级引证文献(1)
2016(4)
  • 引证文献(1)
  • 二级引证文献(3)
2017(3)
  • 引证文献(0)
  • 二级引证文献(3)
2018(5)
  • 引证文献(0)
  • 二级引证文献(5)
2019(10)
  • 引证文献(0)
  • 二级引证文献(10)
2020(3)
  • 引证文献(1)
  • 二级引证文献(2)
研究主题发展历程
节点文献
高性能计算
矩阵乘法
数字信号处理器
模型
设计权衡
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机学报
月刊
0254-4164
11-1826/TP
大16开
中国科学院计算技术研究所(北京2704信箱)
2-833
1978
chi
出版文献量(篇)
5154
总下载数(次)
49
相关基金
国家自然科学基金
英文译名:the National Natural Science Foundation of China
官方网址:http://www.nsfc.gov.cn/
项目类型:青年科学基金项目(面上项目)
学科类型:数理科学
论文1v1指导