GPU 的特点
1. 主要处理简单的任务
比如矩阵变化、光照计算等等
2. 任务之间相互依赖少
通常情况下,某个顶点的坐标变换不依赖也不影响其它顶点的坐标变换,某个像素的颜色计算不依赖也不影响其它像素的颜色计算
3. 硬件设计偏向高并发的设计
堆砌大量的计算单元,基于SIMD 设计
单指令多数据流(SIMD)的 设计思路
1. 单指令单数据流的处理流程:
单指令单数据流每个周期执行指令,获取一个输入,得到一个输出,CPU 处理计算任务的处理流程通常是单指令单数据流的流程
2. 单指令多数据流的处理流程:
单指令多数据流在一个处理周期内,取同一条指令,获取多个输入数据流,得到多个输出流,相当于一个周期完成多个任务,这些任务必须是相同的任务,只是具体数据不一样,单指令多数据流的一个形象展示:
一个典型的单指令多数据流示意这是一个典型的单指令多数据流流程:
GPU整体架构
GPU整体架构SIMD 处理单元包含的组件
SIMD示意1. ALU
-
ALU 的数量决定了 SIMD 单元的并行能力,数量通常是 4 的整数倍
-
半精度浮点数计算开销是全精度浮点数的一半,比如一个周期如果能计算16次全精度浮点数运算,则能进行32次半精度浮点数运算
-
整数计算性能弱于浮点数(有些GPU会拆分整数 ALU 和 浮点数 ALU),总之尽量减少整数计算
2. SFU
-
SFU数量少,在高级数学函数使用较多时有明显瓶颈
-
整数乘法在有的 GPU 上由 SFU 执行而不是 ALU 执行
3. 固定管线组件
固定管线组件的作用就是执行固定的渲染管线,包括 vertex shader、光栅化、深度测试、pixel shader 等
4. SIMD 单元执行方式
首先我们回顾一下 CPU 的多线程执行模型,多个线程在一个 CPU 核心上是按照时间片来调度的,每个时刻只有一个线程在 CPU 核心上执行,每个线程的上下文保存在 告诉缓存中,时间片切换调度一个线程占有 CPU 时,对应的上下文进行切换。
CPU多线程执行模型GPU 中每个 SIMD 的执行方式有点类似 CPU:
GPU中SIMD执行方式- 线程束(Warp):一组能以 SIMD 方式执行的任务,可以简单理解为执行一模一样指令的的一组任务的集合。
(1)线程束中的“线程”数量通常由 ALU 数量决定
(2)线程束的寄存器上下文由本地的告诉存储器 Register File 保存
(3)线程束之间不以时间片来主动进行切换,切换只发生在一个线程束阻塞时(如读取贴图时)
5. Register File
reigister File 的示意图如下:
register File-
SIMD 单元能同时调度的线程束Warp数量取决于能容纳多少个上下文
-
编写 Shader 时应该适当使用寄存器
-
尽量把数据包装为 Vector4,减少内存对齐产生的浪费,Register File 中需要做内存对齐
-
当 Shader 中的指令过多往往会需要更多临时变量
GPU 命令执行顺序
- GPU 运行的基本原则是:乱序执行
(1)并发任务内部线程束执行耗时不一致(分支、Cache Miss 等原因)
(2)GPU 会尽最大可能填充任务到 SIMD 中
GPU乱序执行- 顺序保障
(1)大部分时候GPU执行的任务不需要保障任务的顺序
(2)渲染管线中,同一个像素的写入顺序可以得到保证:先执行的 DrawCall 对像素的颜色写入一定先写(Computer Shader 不走渲染管线,这里得不到保障)
(3)软件层面做的保障:Resource Barrier 提供执行过程中的同步点,保证对资源的某些操作全部完成
GPU 执行分支和循环语句
- 分支和循环语句的特点:
(1)造成当前线程束以 lockstep 方式执行,但不会造成整个 DrawCall 的 lockstep
(2)有可能打断指令预读的流水线
网友评论