metal

作者: 胡志强 | 来源:发表于2019-09-28 18:16 被阅读0次

本文大部分内容出自苹果文档

本文可以结合在GPU上执行metal一同看本文主要讲述了metal的主要调用流程上的基本概念

Metal框架支持GPU加速的高级3D图形渲染和数据并行计算工作负载。Metal提供了一个现代化的简化API，用于组织，处理和提交图形和计算命令的细粒度，低级控制，以及这些命令的相关数据和资源的管理。Metal的主要目标是最小化执行GPU工作负载所带来的CPU开销。

本文描述了Metal的基本概念：命令提交模型，内存管理模型，以及独立编译的代码用于图形着色器和数据并行计算功能的使用。然后，详细说明了如何使用Metal API编写应用程序。

metal的基本概念

Metal为图形和数据并行计算工作负载提供统一的编程接口和语言。Metal使您能够更有效地集成图形和计算任务，而无需使用单独的API和着色器语言。

Metal框架提供以下内容：

低开销接口。Metal旨在消除“隐藏”性能瓶颈，例如隐式状态验证。您可以控制GPU的异步行为，以实现用于并行创建和提交命令缓冲区的高效多线程。

有关金属命令提交的详细信息，请参阅命令组织和执行模型。
内存和资源管理。Metal框架描述了表示GPU内存分配的缓冲区和纹理对象。纹理对象具有特定的像素格式，可用于纹理图像或附件。

有关金属内存对象的详细信息，请参阅资源对象：缓冲区和纹理。
集成了对图形和计算操作的支持。Metal为图形和计算操作使用相同的数据结构和资源（例如缓冲区，纹理和命令队列）。此外，Metal着色语言支持图形和计算功能。Metal框架允许在运行时接口，图形着色器和计算功能之间共享资源。

有关编写使用Metal进行图形渲染或数据并行计算操作的应用程序的详细信息，请参阅图形渲染：渲染命令编码器或数据并行计算处理：计算命令编码器。
预编译着色器。可以在构建时编译金属着色器以及应用程序代码，然后在运行时加载。此工作流程提供了更好的代码生成以及更简单的着色器代码调试。（Metal还支持着色器代码的运行时编译。）

在Metal架构中，MTLDevice协议定义了代表单个GPU的接口。该MTLDevice协议支持询问设备属性的方法，用于创建其他特定于设备的对象（如缓冲区和纹理），以及用于编码和排队渲染和计算命令以提交给GPU执行的方法。

命令队列包含一个队列的命令缓冲区，并且一命令队列整理哪些命令缓冲区的执行顺序。命令缓冲区包含用于在特定设备上执行的编码命令。命令编码器附加渲染，计算，和位图传送命令到命令缓冲器，并且这些命令缓冲器最终被致力于用于在设备上执行。

MTLCommandQueue协议定义了命令队列的接口，主要支持创建命令缓冲区对象的方法。
MTLCommandBuffer协议定义了命令缓冲区的接口，并提供了创建命令编码器，排队命令缓冲区以执行，检查状态和其他操作的方法。该MTLCommandBuffer协议支持以下命令编码器类型，这些接口用于将不同类型的GPU工作负载编码到命令缓冲区中：

MTLRenderCommandEncoder协议对单个渲染过程的图形（3D）渲染命令进行编码。
MTLComputeCommandEncoder协议编码数据并行计算工作负载。
该MTLBlitCommandEncoder协议对缓冲区和纹理之间的简单复制操作以及mipmap生成等实用程序操作进行编码。

在任何时间点，只有一个命令编码器可以处于活动状态，并将命令附加到命令缓冲区。必须先结束每个命令编码器，然后才能创建另一个命令编码器以与同一命令缓冲区一起使用。“每个命令缓冲区的一个活动命令编码器”规则的一个
例外是MTLParallelRenderCommandEncoder协议，在使用多线程编码单个渲染通道中讨论。

完成所有编码后，您将提交MTLCommandBuffer对象本身，这标志着命令缓冲区已准备好由GPU执行。该MTLCommandQueue协议控制何时MTLCommandBuffer执行提交对象中的命令，相对于MTLCommandBuffer已在命令队列中的其他对象。

图2-1显示了命令队列，命令缓冲区和命令编码器对象如何密切相关。图顶部的每列组件（缓冲区，纹理，采样器，深度和模板状态，管道状态）表示特定于命令编码器的资源和状态。

图2-1 金属对象关系

设备对象代表GPU

MTLDevice对象表示一个GPU能够执行的命令。该MTLDevice协议具有创建新命令队列，从内存分配缓冲区，创建纹理以及查询设备功能的方法。要在系统上获取首选系统设备，请调用该MTLCreateSystemDefaultDevice功能。

metal中的瞬态和非瞬态物体

Metal中的一些对象被设计为瞬态且非常轻量级，而其他对象则更昂贵并且可以持续很长时间，可能在应用程序的生命周期中。命令缓冲区和命令编码器对象是瞬态的，仅供单次使用。分配和释放它们非常便宜，因此它们的创建方法返回自动释放的对象。以下对象不是瞬态的。在性能敏感的代码中重用这些对象，并避免重复创建它们

命令队列 Command queues
数据缓冲区 Data buffers
纹理 Textures
采样器状态 Sampler states
图书馆 Libraries
计算状态 Compute states
渲染管道状态 Render pipeline states
深度/模板状态 Depth/stencil states

命令队列

命令队列接受GPU将执行的命令缓冲区的有序列表。发送到单个队列的所有命令缓冲区都保证按命令缓冲区入队的顺序执行。通常，命令队列是线程安全的，允许同时编码多个活动命令缓冲区

要创建命令队列，请调用对象的newCommandQueue方法或newCommandQueueWithMaxCommandBufferCount:方法MTLDevice。通常，命令队列应该是复用的，因此不应重复创建和销毁它们。

命令缓冲区

命令缓冲区存储编码的命令，直到缓冲区被提交以供GPU执行。单个命令缓冲区可以包含许多不同类型的编码命令，具体取决于用于构建它的编码器的数量和类型。在典型的应用程序中，整个渲染帧被编码到单个命令缓冲区中，即使渲染该帧涉及多个渲染过程，计算处理函数或blit操作。

命令缓冲区是瞬态一次性对象，不支持重用。一旦命令缓冲区被提交执行，唯一有效的操作是等待命令缓冲区被调度或完成 - 通过在为命令缓冲区执行注册处理程序块中讨论的同步调用或处理程序块- 并检查状态命令缓冲区执行。

命令缓冲区也是应用程序唯一可独立跟踪的工作单元，它们定义了由Metal Memory模型建立的一致性边界，详见资源对象：缓冲区和纹理。

创建命令缓冲区

要创建MTLCommandBuffer对象，请调用commandBuffer方法MTLCommandQueue。一个MTLCommandBuffer对象只能提交到MTLCommandQueue创建它的对象。

该commandBuffer方法创建的命令缓冲区保留执行所需的数据。对于某些情况，您在执行MTLCommandBuffer对象期间在其他位置保留这些对象，您可以通过调用commandBufferWithUnretainedReferences方法来创建命令缓冲区MTLCommandQueue。commandBufferWithUnretainedReferences仅将此方法用于极其性能关键的应用程序，这些应用程序可以保证关键对象在应用程序的其他位置具有引用，直到命令缓冲区执行完否则，可能会过早释放不再具有其他引用的对象，并且未定义命令缓冲区执行的结果。

执行命令

MTLCommandBuffer协议使用以下方法在命令队列中建立命令缓冲区的执行顺序。命令缓冲区在提交之前不会开始执行。提交后，命令缓冲区按入队顺序执行。

enqueue方法在命令队列上保留命令缓冲区的位置，但不提交命令缓冲区以供执行。最终提交此命令缓冲区时，将在相关命令队列中任何先前排队的命令缓冲区之后执行该命令缓冲区。
commit方法使命令缓冲区尽快执行，但是在提交了同一命令队列中的任何先前排队的命令缓冲区之后。如果命令缓冲区先前未入队，commit则进行隐含enqueue调用。

有关使用enqueue多个线程的示例，请参阅多线程，命令缓冲区和命令编码器。

为命令缓冲区执行注册处理程序块

下面MTLCommandBuffer列出的方法监视命令执行。计划和完成的处理程序在未定义的线程上按执行顺序调用。您在这些处理程序中执行的任何代码都应该快速完成; 如果需要进行昂贵或阻塞工作，请将该工作推迟到另一个线程。

addScheduledHandler:方法在调度命令缓冲区时注册要调用的代码块。当满足其他对象或系统中的其他API 提交的工作之间的任何依赖关系时，将考虑调度命令缓冲区MTLCommandBuffer。您可以为命令缓冲区注册多个预定处理程序。
在waitUntilScheduled调度命令缓冲区并且addScheduledHandler:完成该方法注册的所有处理程序之后，该方法同步等待并返回。
addCompletedHandler:方法在设备完成命令缓冲区的执行后立即注册要调用的代码块。您可以为命令缓冲区注册多个已完成的处理程序。
waitUntilCompleted方法在设备完成命令缓冲区的执行后同步等待并返回，并且该addCompletedHandler:方法注册的所有处理程序都已返回。

该presentDrawable:方法是已完成处理程序的特例。这种便利方法在CAMetalDrawable调度命令缓冲区时呈现可显示资源（对象）的内容。有关该presentDrawable:方法的详细信息，请参阅与Core Animation集成：CAMetalLayer。

监视命令缓冲区执行状态

只读status属性包含MTLCommandBufferStatus列出的枚举值，Command Buffer Status Codes该值反映了此命令缓冲区生命周期中的当前调度阶段。

如果执行成功完成，则只读error属性的值为nil。如果执行失败，则status设置为MTLCommandBufferStatusError，并且error属性可能包含列出的值Command Buffer Error Codes，表示失败的原因。

命令编码器

命令编码器是一个瞬态对象，您可以使用该对象以GPU可以执行的格式将命令和状态写入单个命令缓冲区。许多命令编码器对象方法将命令附加到命令缓冲区。命令编码器处于活动状态时，它具有为其命令缓冲区附加命令的专有权。完成编码命令后，调用该endEncoding方法。要编写更多命令，请创建一个新的命令编码器。

创建命令编码器对象

由于命令编码器将命令附加到特定命令缓冲区，因此您可以通过从MTLCommandBuffer要使用它的对象中请求命令编码器来创建命令编码器。使用以下MTLCommandBuffer方法创建每种类型的命令编码器：

renderCommandEncoderWithDescriptor:方法创建一个MTLRenderCommandEncoder对象，用于图形渲染到附件中MTLRenderPassDescriptor。
computeCommandEncoder方法MTLComputeCommandEncoder为数据并行计算创建一个对象。
blitCommandEncoder方法MTLBlitCommandEncoder为内存操作创建一个对象。
parallelRenderCommandEncoderWithDescriptor:方法创建一个MTLParallelRenderCommandEncoder对象，该对象使多个MTLRenderCommandEncoder对象能够在不同的线程上运行，同时仍然呈现为共享中指定的附件MTLRenderPassDescriptor。

渲染命令编码器

图形渲染可以在来描述渲染通道。MTLRenderCommandEncoder对象表示与单个渲染通道相关联的渲染状态和绘图命令。A MTLRenderCommandEncoder需要关联MTLRenderPassDescriptor（在创建渲染通道描述符中描述），其包括用作渲染命令的目的地的颜色，深度和模板附件。将MTLRenderCommandEncoder有以下方法：

指定包含顶点，片段或纹理图像数据的图形资源，例如缓冲区和纹理对象
指定MTLRenderPipelineState包含已编译渲染状态的对象，包括顶点和片段着色器
指定固定功能状态，包括视口，三角形填充模式，剪刀矩形，深度和模板测试以及其他值
绘制3D基元

有关MTLRenderCommandEncoder协议的详细信息，请参见图形渲染：渲染命令编码器。

计算命令编码器

对于数据并行计算，该MTLComputeCommandEncoder协议提供了在命令缓冲区中编码命令的方法，该命令可以指定计算函数及其参数（例如，纹理，缓冲区和采样器状态）并调度计算函数以供执行。要创建计算命令编码器对象，请使用computeCommandEncoder方法MTLCommandBuffer。有关MTLComputeCommandEncoder方法和属性的详细信息，请参阅数据并行计算处理：计算命令编码器。

Blit命令编码器

该MTLBlitCommandEncoder协议具有为缓冲区（MTLBuffer）和纹理（MTLTexture）之间的内存复制操作附加命令的方法。MTLBlitCommandEncoder协议还提供了用纯色填充纹理并生成mipmap的方法。要创建blit命令编码器对象，请使用blitCommandEncoder方法MTLCommandBuffer。有关MTLBlitCommandEncoder方法和属性的详细信息，请参阅缓冲区和纹理操作：Blit命令编码器。

多线程，命令缓冲区和命令编码器

大多数应用程序使用单个线程在单个命令缓冲区中为单个帧编码渲染命令。在每个帧的末尾，您提交命令缓冲区，它既调度又开始执行命令。

如果要并行化命令缓冲区编码，则可以同时创建多个命令缓冲区，并使用单独的线程对每个命令缓冲区进行编码。如果您事先知道命令缓冲区应该以什么顺序执行，那么该enqueue方法MTLCommandBuffer可以在命令队列中声明执行顺序，而无需等待命令被编码和提交。否则，当提交命令缓冲区时，在任何先前排队的命令缓冲区之后，它将在命令队列中分配一个位置。

只有一个CPU线程可以访问命令缓冲区。多线程应用程序可以使用每个命令缓冲区一个线程来并行创建多个命令缓冲区。

图2-2显示了一个包含三个线程的示例。每个线程都有自己的命令缓冲区。对于每个线程，一次一个命令编码器可以访问其相关的命令缓冲区。图2-2还显示了每个命令缓冲区接收来自不同命令编码器的命令。完成编码后，调用endEncoding命令编码器的方法，然后新的命令编码器对象可以开始将命令编码到命令缓冲区。

图2-2 具有多个线程的金属命令缓冲区