基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
HPL是高性能计算广泛采用的Linpack 测试软件包。针对龙芯3 B处理器体系结构的特点,为Linpack中的核心部分---矩阵乘法设计矩阵分块策略,利用龙芯3 B的cache锁机制将频繁调用的数据分块锁在cache中,从而显著降低cache缺失率。同时为龙芯3 B处理器中的访存加速部件设计了高效的预取算法,以实现计算时间掩盖访存时间。另外,分别对Linpack所调用的dtrsm和行交换等热点函数进行优化,并通过参数训练来优化Linpack参数。实验结果表明,在龙芯3 B处理器上,单节点4核以及双节点8核的Linpack实测性能均达到理论峰值的60%左右,优化后的Linpack性能较优化前提升了10倍左右。
推荐文章
龙芯处理器性能测试方法研究
龙芯处理器
SPEC
性能测试
国产化
VxWorks在龙芯处理器上的移植与实现
龙芯处理器
VxWorks
BSP开发
龙芯2E多处理器芯片组的设计与实现
多处理器
芯片组
全局地址空间
龙芯2E处理器
基于龙芯2号处理器的SPEC 2000测试程序的分析与应用
龙芯2号
处理器
SPEC 2000
性能测试
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于龙芯3 B处理器的Linpack优化实现
来源期刊 深圳大学学报(理工版) 学科 工学
关键词 计算机系统结构 龙芯3B处理器 线性系统软件包 矩阵乘法 数据预取
年,卷(期) 2014,(3) 所属期刊栏目
研究方向 页码范围 286-292
页数 7页 分类号 TP301|TP319
字数 4931字 语种 中文
DOI 10.3724/SP.J.1249.2014.03286
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 刘刚 深圳大学计算机与软件学院广东省普及型高性能计算机实验室 36 341 10.0 17.0
2 张滇 深圳大学计算机与软件学院广东省普及型高性能计算机实验室 5 12 3.0 3.0
3 毛睿 深圳大学计算机与软件学院广东省普及型高性能计算机实验室 18 81 5.0 8.0
4 张恒 深圳大学计算机与软件学院广东省普及型高性能计算机实验室 2 9 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (28)
共引文献  (27)
参考文献  (8)
节点文献
引证文献  (4)
同被引文献  (1)
二级引证文献  (0)
1979(1)
  • 参考文献(0)
  • 二级参考文献(1)
1997(1)
  • 参考文献(0)
  • 二级参考文献(1)
2001(1)
  • 参考文献(0)
  • 二级参考文献(1)
2003(2)
  • 参考文献(1)
  • 二级参考文献(1)
2004(3)
  • 参考文献(1)
  • 二级参考文献(2)
2005(1)
  • 参考文献(0)
  • 二级参考文献(1)
2006(1)
  • 参考文献(1)
  • 二级参考文献(0)
2007(1)
  • 参考文献(0)
  • 二级参考文献(1)
2008(11)
  • 参考文献(1)
  • 二级参考文献(10)
2009(4)
  • 参考文献(0)
  • 二级参考文献(4)
2011(5)
  • 参考文献(2)
  • 二级参考文献(3)
2012(4)
  • 参考文献(1)
  • 二级参考文献(3)
2013(1)
  • 参考文献(1)
  • 二级参考文献(0)
2014(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2016(1)
  • 引证文献(1)
  • 二级引证文献(0)
2018(1)
  • 引证文献(1)
  • 二级引证文献(0)
2019(2)
  • 引证文献(2)
  • 二级引证文献(0)
研究主题发展历程
节点文献
计算机系统结构
龙芯3B处理器
线性系统软件包
矩阵乘法
数据预取
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
深圳大学学报(理工版)
双月刊
1000-2618
44-1401/N
大16开
深圳市南山区深圳大学行政楼419室
46-206
1984
chi
出版文献量(篇)
1946
总下载数(次)
10
总被引数(次)
10984
论文1v1指导