基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
脉动阵列结构规整、吞吐量大,适合矩阵乘算法,广泛用于设计高性能卷积、矩阵乘加速结构.在深亚微米工艺下,通过增大阵列规模来提升芯片计算性能,会导致频率下降、功耗剧增等问题.因此,结合3D集成电路技术,提出了一种将平面脉动阵列结构映射到3D集成电路上的双精度浮点矩阵乘加速结构3 D-MMA.首先,设计了针对该结构的分块映射调度算法,提升矩阵乘计算效率;其次,提出了基于3 D-MMA的加速系统,构建了3 D-MMA的性能模型,并对其设计空间进行探索;最后,评估了该结构实现代价,并同已有先进加速器进行对比分析.实验结果表明,访存带宽为160 GB/s时,采用4层16×16脉动阵列的堆叠结构时,3D-MMA计算峰值性能达3 TFLOPS,效率达99%,且实现代价小于二维实现.在相同工艺下,同线性阵列加速器及K40 GPU相比,3D-MMA的性能是后者的1.36及1.92倍,而面积远小于后者.探索了3D集成电路在高性能矩阵乘加速器设计中的优势,对未来进一步提升高性能计算平台性能具有一定的参考价值.
推荐文章
3D-ACC:基于3D集成电路的卷积神经网络加速结构研究
3D集成电路
脉动阵列
循环分块
性能模型
3D叠层封装集成电路的芯片分离技术
3D叠层封装
集成电路
芯片分离技术
区域研磨法
化学腐蚀法
基于PAL的3D亮色分离电路
动态检测电路
帧存储结构
亮色分离
新型的基于PAL的3D亮/色分离电路
3D
PAL
亮色分离
三维处理
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 3D-MMA:基于3D集成电路的矩阵乘加速结构
来源期刊 计算机工程与科学 学科 工学
关键词 3D集成电路 矩阵乘 分块算法 性能模型
年,卷(期) 2019,(12) 所属期刊栏目 高性能计算
研究方向 页码范围 2110-2118
页数 9页 分类号 TP302
字数 7475字 语种 中文
DOI 10.3969/j.issn.1007-130X.2019.12.003
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 李宏亮 38 153 5.0 12.0
2 郝子宇 12 8 1.0 2.0
3 王吉军 5 2 1.0 1.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (15)
共引文献  (2)
参考文献  (7)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
1981(1)
  • 参考文献(1)
  • 二级参考文献(0)
1982(1)
  • 参考文献(1)
  • 二级参考文献(0)
1995(2)
  • 参考文献(2)
  • 二级参考文献(0)
2003(1)
  • 参考文献(0)
  • 二级参考文献(1)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(3)
  • 参考文献(1)
  • 二级参考文献(2)
2008(1)
  • 参考文献(0)
  • 二级参考文献(1)
2010(1)
  • 参考文献(0)
  • 二级参考文献(1)
2012(2)
  • 参考文献(1)
  • 二级参考文献(1)
2013(1)
  • 参考文献(0)
  • 二级参考文献(1)
2017(1)
  • 参考文献(0)
  • 二级参考文献(1)
2018(2)
  • 参考文献(1)
  • 二级参考文献(1)
2019(4)
  • 参考文献(0)
  • 二级参考文献(4)
2020(1)
  • 参考文献(0)
  • 二级参考文献(1)
2019(4)
  • 参考文献(0)
  • 二级参考文献(4)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
3D集成电路
矩阵乘
分块算法
性能模型
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机工程与科学
月刊
1007-130X
43-1258/TP
大16开
湖南省长沙市开福区德雅路109号国防科技大学计算机学院
42-153
1973
chi
出版文献量(篇)
8622
总下载数(次)
11
总被引数(次)
59030
  • 期刊分类
  • 期刊(年)
  • 期刊(期)
  • 期刊推荐
论文1v1指导