美文网首页
移动端GPU——GPU 基本架构

移动端GPU——GPU 基本架构

作者: 太刀 | 来源:发表于2020-11-23 12:27 被阅读0次
Save Rock And Roll

GPU 的特点

1. 主要处理简单的任务

比如矩阵变化、光照计算等等

2. 任务之间相互依赖少

通常情况下,某个顶点的坐标变换不依赖也不影响其它顶点的坐标变换,某个像素的颜色计算不依赖也不影响其它像素的颜色计算

3. 硬件设计偏向高并发的设计

堆砌大量的计算单元,基于SIMD 设计

单指令多数据流(SIMD)的 设计思路

1. 单指令单数据流的处理流程:

单指令单数据流

每个周期执行指令,获取一个输入,得到一个输出,CPU 处理计算任务的处理流程通常是单指令单数据流的流程

2. 单指令多数据流的处理流程:

单指令多数据流

在一个处理周期内,取同一条指令,获取多个输入数据流,得到多个输出流,相当于一个周期完成多个任务,这些任务必须是相同的任务,只是具体数据不一样,单指令多数据流的一个形象展示:

一个典型的单指令多数据流示意

这是一个典型的单指令多数据流流程:

GPU整体架构

GPU整体架构

SIMD 处理单元包含的组件

SIMD示意

1. ALU

  • ALU 的数量决定了 SIMD 单元的并行能力,数量通常是 4 的整数倍

  • 半精度浮点数计算开销是全精度浮点数的一半,比如一个周期如果能计算16次全精度浮点数运算,则能进行32次半精度浮点数运算

  • 整数计算性能弱于浮点数(有些GPU会拆分整数 ALU 和 浮点数 ALU),总之尽量减少整数计算

2. SFU

  • SFU数量少,在高级数学函数使用较多时有明显瓶颈

  • 整数乘法在有的 GPU 上由 SFU 执行而不是 ALU 执行

3. 固定管线组件

固定管线组件的作用就是执行固定的渲染管线,包括 vertex shader、光栅化、深度测试、pixel shader 等

4. SIMD 单元执行方式

首先我们回顾一下 CPU 的多线程执行模型,多个线程在一个 CPU 核心上是按照时间片来调度的,每个时刻只有一个线程在 CPU 核心上执行,每个线程的上下文保存在 告诉缓存中,时间片切换调度一个线程占有 CPU 时,对应的上下文进行切换。

CPU多线程执行模型

GPU 中每个 SIMD 的执行方式有点类似 CPU:

GPU中SIMD执行方式
  • 线程束(Warp):一组能以 SIMD 方式执行的任务,可以简单理解为执行一模一样指令的的一组任务的集合。

(1)线程束中的“线程”数量通常由 ALU 数量决定

(2)线程束的寄存器上下文由本地的告诉存储器 Register File 保存

(3)线程束之间不以时间片来主动进行切换,切换只发生在一个线程束阻塞时(如读取贴图时)

5. Register File

reigister File 的示意图如下:

register File
  • SIMD 单元能同时调度的线程束Warp数量取决于能容纳多少个上下文

  • 编写 Shader 时应该适当使用寄存器

  • 尽量把数据包装为 Vector4,减少内存对齐产生的浪费,Register File 中需要做内存对齐

  • 当 Shader 中的指令过多往往会需要更多临时变量

GPU 命令执行顺序

  • GPU 运行的基本原则是:乱序执行

(1)并发任务内部线程束执行耗时不一致(分支、Cache Miss 等原因)

(2)GPU 会尽最大可能填充任务到 SIMD 中

GPU乱序执行
  • 顺序保障

(1)大部分时候GPU执行的任务不需要保障任务的顺序

(2)渲染管线中,同一个像素的写入顺序可以得到保证:先执行的 DrawCall 对像素的颜色写入一定先写(Computer Shader 不走渲染管线,这里得不到保障)

(3)软件层面做的保障:Resource Barrier 提供执行过程中的同步点,保证对资源的某些操作全部完成

GPU 执行分支和循环语句

  • 分支和循环语句的特点:

(1)造成当前线程束以 lockstep 方式执行,但不会造成整个 DrawCall 的 lockstep

(2)有可能打断指令预读的流水线

相关文章

网友评论

      本文标题:移动端GPU——GPU 基本架构

      本文链接:https://www.haomeiwen.com/subject/uzbyiktx.html