博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
GPU的硬件结构
阅读量:4224 次
发布时间:2019-05-26

本文共 773 字,大约阅读时间需要 2 分钟。

GPU的硬件结构,也不是具体的硬件结构,就是与CUDA相关的几个概念:thread,block,grid,warp,sp,sm。

sp: 最基本的处理单元,streaming processor  最后具体的指令和任务都是在sp上处理的。GPU进行并行计算,也就是很多个sp同时做处理

sm:多个sp加上其他的一些资源组成一个sm,  streaming multiprocessor. 其他资源也就是存储资源,共享内存,寄储器等。

warp:GPU执行程序时的调度单位,目前cuda的warp的大小为32,同在一个warp的线程,以不同数据资源执行相同的指令。

grid、block、thread:在利用cuda进行编程时,一个grid分为多个block,而一个block分为多个thread.其中任务划分到是否影响最后的执行效果。划分的依据是任务特性和

GPU本身的硬件特性。

下面几张硬件结构简图 便于理解(图片来源于网上)

 

以上两图可以清晰地表示出sm与sp的关系。

此图反应了warp作为调度单位的作用,每次GPU调度一个warp里的32个线程执行同一条指令,其中各个线程对应的数据资源不同。

 

上图是一个warp排程的例子。

一个sm只会执行一个block里的warp,当该block里warp执行完才会执行其他block里的warp。

进行划分时,最好保证每个block里的warp比较合理,那样可以一个sm可以交替执行里面的warp,从而提高效率,此外,在分配block时,要根据GPU的sm个数,分配出合理的

block数,让GPU的sm都利用起来,提利用率。分配时,也要考虑到同一个线程block的资源问题,不要出现对应的资源不够。

原文出处:http://www.cnblogs.com/dwdxdy/p/3215158.html

你可能感兴趣的文章
收藏 | 10本免费的机器学习和数据科学书籍(附链接)
查看>>
独家 | 如何用Python编写你最喜欢的R函数?
查看>>
AI开学第一课!CMU深度学习秋季课程开课了(附PPT 、视频)
查看>>
深度学习贝叶斯,这是一份密集的6天速成课程(附视频与PPT)
查看>>
报名 | 三年拿斯坦福CS博士的创业者:AI如何赋能金融
查看>>
独家 | Tableau小技巧之分离Box plot和Unit Histogram(附链接)
查看>>
独家 | 一文读懂最大似然估计(附R代码)
查看>>
谷歌参展攻略!AI皮影戏、3D作画、与AI共舞...嗨翻魔都(附视频)
查看>>
收藏 | 28个R语言绘图的实用程序包!
查看>>
独家 | 教你用卷积神经网络对视觉神经元进行建模(附资源)
查看>>
报告 | 野蛮数据时代,企业和从业者如何应对变革焦虑?
查看>>
独家 | 手把手教你组织数据科学项目!(附代码)
查看>>
清华大学矣晓沅:“九歌”——基于深度学习的中国古典诗歌自动生成系统
查看>>
AlphaGo首席研究员亲授!10张PPT介绍10大强化学习黄金法则!
查看>>
假期专属论文清单:把国庆长假安排得明明白白!
查看>>
清华男女图鉴 | 有电车会拍照,我在清华还是找不到女朋友
查看>>
68页PPT教你撰写一篇优秀的机器学习研究论文!
查看>>
THE世界大学排名发布:牛津大学蝉联榜首,清华大学亚洲第一
查看>>
独家 | 一文读懂数据质量和验证检查(附代码)
查看>>
独家 | 零售业中的惊涛骇浪——人工智能、机器学习和大数据
查看>>