基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
为了更好地在向量化时读取离散的数据,Intel在Haswell CPU提供了AVX2vgather指令.由于Stencil在设置边界条件时使用了条件判断,因此编译器生成了vgather指令,并降低了Stencil在Haswell上的性能.提出使用peel优化或intrinsic load的方法来避免vgather指令的生成,并把该方法应用到3个Stencil基准算例、长程Stencil程序3DFD以及混合Stencil应用3DEW上.这些Stencil在Haswell上的性能都获得了1.22X至3.88X不等的提升.通过研究指令的实现,发现vgather指令会被解码成多个微操作(μops),并为每个要读入的元素生成一个μops.由于vgather指令解码时会产生较高的开销,导致vgather指令成为Stencil在Haswell上的性能瓶颈.了解AVX2 vgather指令的实现以及掌握避免生成vgather指令的优化方法,对在Haswell上调优具有良好空间局部性应用的性能有一定的参考价值.
推荐文章
利用Stencil建模及评估Intel IMCI vgather指令
性能建模
vgather
Xeon Phi
硬件计数器
基于AVX与OpenMP的LIBSVM并行优化研究?
高级矢量扩展指令集
支持向量机
并行度
内存布局
LIBSVM
基于Intel指令集的H.264编码器优化
Intel指令集
H.264
优化
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 使用Stencil评估Intel AVX2Vgather指令
来源期刊 计算机科学 学科 工学
关键词 AVX2 vgather指令 Stencil 性能评估
年,卷(期) 2017,(1) 所属期刊栏目
研究方向 页码范围 20-24
页数 5页 分类号 TP391
字数 4963字 语种 中文
DOI 10.11896/j.issn.1002-137X.2017.01.004
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 文敏华 上海交通大学高性能计算中心 13 22 3.0 4.0
2 秦强 上海交通大学高性能计算中心 3 7 1.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (0)
共引文献  (0)
参考文献  (0)
节点文献
引证文献  (0)
同被引文献  (0)
二级引证文献  (0)
2017(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
研究主题发展历程
节点文献
AVX2 vgather指令
Stencil
性能评估
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
总被引数(次)
150664
论文1v1指导