基本信息来源于合作网站,原文需代理用户跳转至来源网站获取       
摘要:
连续的数据无关是指计算目标矩阵连续的元素时使用的源矩阵元素之间没有关系且也为连续的,访存密集型是指函数的计算量较小,但是有大量的数据传输操作.在OpenCL框架下,以bitwise函数为例,研究和实现了连续数据无关访存密集型函数在GPU平台上的并行与优化.在考察向量化、线程组织方式和指令选择优化等多个优化角度在不同的GPU硬件平台上对性能的影响之后,实现了这个函数的跨平台性能移植.实验结果表明,在不考虑数据传输的前提下,优化后的函数与这个函数在OpenCV库中的CPU版本相比,在AMD HD 5850 GPU达到了平均40倍的性能加速比;在AMD HD 7970 GPU达到了平均90倍的性能加速比;在NVIDIA Tesla C2050 GPU上达到了平均60倍的性能加速比;同时,与这个函数在OpenCV库中的CUDA实现相比,在NVIDIA Tesla C2050平台上也达到了1.5倍的性能加速.
推荐文章
基于OpenCL的自动微分并行实现及其应用
自动微分
并行计算
OpenCL
基于调用链分析的访存优化技术
函数调用
访存操作
上下文保存
调用关系图
编译优化
一种适应数据与计算密集型任务的私有云系统实现研究
数据与计算双重密集型任务
私有云
云计算
并行计算
基于信任模型的数据密集型网格任务调度算法研究
调度
网格
数据密集型
信用模型
均衡负载
内容分析
关键词云
关键词热度
相关文献总数  
(/次)
(/年)
文献信息
篇名 基于OpenCL的连续数据无关访存密集型函数并行与优化研究
来源期刊 计算机科学 学科 工学
关键词 GPU OpenCL 向量化 ROI
年,卷(期) 2013,(3) 所属期刊栏目 2012'HPC专栏
研究方向 页码范围 111-115
页数 5页 分类号 TP302
字数 6702字 语种 中文
DOI
五维指标
作者信息
序号 姓名 单位 发文数 被引次数 H指数 G指数
1 张云泉 中国科学院软件研究所并行软件与计算科学实验室 69 542 15.0 21.0
5 贾海鹏 中国科学院软件研究所并行软件与计算科学实验室 11 94 5.0 9.0
9 龙国平 中国科学院软件研究所并行软件与计算科学实验室 9 79 4.0 8.0
10 蒋丽媛 中国科学院软件研究所并行软件与计算科学实验室 3 7 2.0 2.0
传播情况
(/次)
(/年)
引文网络
引文网络
二级参考文献  (16)
共引文献  (31)
参考文献  (3)
节点文献
引证文献  (3)
同被引文献  (2)
二级引证文献  (0)
1979(1)
  • 参考文献(0)
  • 二级参考文献(1)
2004(1)
  • 参考文献(0)
  • 二级参考文献(1)
2007(2)
  • 参考文献(0)
  • 二级参考文献(2)
2008(3)
  • 参考文献(0)
  • 二级参考文献(3)
2009(2)
  • 参考文献(0)
  • 二级参考文献(2)
2010(5)
  • 参考文献(0)
  • 二级参考文献(5)
2011(3)
  • 参考文献(1)
  • 二级参考文献(2)
2012(2)
  • 参考文献(2)
  • 二级参考文献(0)
2013(0)
  • 参考文献(0)
  • 二级参考文献(0)
  • 引证文献(0)
  • 二级引证文献(0)
2014(1)
  • 引证文献(1)
  • 二级引证文献(0)
2015(1)
  • 引证文献(1)
  • 二级引证文献(0)
2017(1)
  • 引证文献(1)
  • 二级引证文献(0)
研究主题发展历程
节点文献
GPU
OpenCL
向量化
ROI
研究起点
研究来源
研究分支
研究去脉
引文网络交叉学科
相关学者/机构
期刊影响力
计算机科学
月刊
1002-137X
50-1075/TP
大16开
重庆市渝北区洪湖西路18号
78-68
1974
chi
出版文献量(篇)
18527
总下载数(次)
68
论文1v1指导