46.现有移动端开源框架及其特点——QNNPACK-2

作者: 大勇任卷舒 | 来源:发表于2023-04-05 11:20 被阅读0次

46.1 深度卷积

分组卷积（grouped convolution）将输入和输出通道分割成多组，然后对每个组进行分别处理。在有限条件下，当组数等于通道数时，该卷积就是深度卷积，常用于当前的神经网络架构中
- 深度卷积对每个通道分别执行空间滤波，展示了与正常卷积非常不同的计算模式。因此，通常要向深度卷积提供单独实现，QNNPACK 包括一个高度优化版本 3×3 深度卷积。
深度卷积的传统实现是每次都在卷积核元素上迭代，然后将一个卷积核行和一个输入行的结果累加到输出行
- 对于一个 3×3 的深度卷积，此类实现将把每个输出行更新 9 次
- 在 QNNPACK 中，研究者计算所有 3×3 卷积核行和 3×3 输入行的结果，一次性累加到输出行，然后再处理下个输出行。
QNNPACK 实现高性能的关键因素在于完美利用通用暂存器（GPR）来展开卷积核元素上的循环，同时避免在 hot loop 中重新加载地址寄存器
- 32-bit ARM 架构将实现限制在 14 个 GPR。在 3×3 深度卷积中，需要读取 9 个输入行和 9 个卷积核行。这意味着如果想完全展开循环必须存储 18 个地址
- 然而，实践中推断时卷积核不会发生变化。因此 Facebook 研究者使用之前在 CxKHxKW 中的滤波器，将它们封装进 [C/8]xKWxKHx8，这样就可以仅使用具备地址增量（address increment）的一个 GPR 访问所有滤波器
- （研究者使用数字 8 的原因在于，在一个命令中加载 8 个元素然后减去零，在 128-bit NEON 暂存器中生成 8 个 16-bit 值。）然后使用 9 个输入行指针，指针将滤波器重新装进 10 个 GPR，完全展开滤波器元素上的循环
- 64-bit ARM 架构相比 32-bit 架构，GPR 的数量翻了一倍
- QNNPACK 利用额外的 ARM64 GPR，一次性存储 3×5 输入行的指针，并计算 3 个输出行。

46.2 性能优势

测试结果显示出 QNNPACK 在端到端基准上的性能优势
- 在量化当前最优 MobileNetV2 架构上，基于QNNPACK 的 Caffe2 算子的速度大约是 TensorFlow Lite 速度的 2 倍，在多种手机上都是如此
- 除了 QNNPACK 之外，Facebook 还开源了 Caffe2 quantized MobileNet v2 模型，其 top-1 准确率比相应的 TensorFlow 模型高出 1.3%。
  MobileNetV1
MobileNetV1 架构在使用深度卷积（depthwise convolution）使模型更适合移动设备方面具备开创性
- MobileNetV1 包括几乎整个 1×1 卷积和 3×3 卷积
- Facebook 研究者将量化 MobileNetV1 模型从 TensorFlow Lite 转换而来，并在 TensorFlow Lite 和 QNNPACK 的 32-bit ARM 设备上对 MobileNetV1 进行基准测试
- 二者运行时均使用 4 线程，研究者观察到 QNNPACK 的运行速度几何平均值是 TensorFlow Lite 的 1.8 倍。

MobileNetV2

作为移动视觉任务的当前最优架构之一，MobileNetV2 引入了瓶颈构造块和瓶颈之间的捷径连接
- 研究者在 MobileNetV2 分类模型的量化版上对比基于 QNNPACK 的 Caffe2 算子和 TensorFlow Lite 实现
- 使用的量化 Caffe2 MobileNetV2 模型已开源，量化 TensorFlow Lite 模型来自官方库
- 下表展示了二者在常用测试集上的 top1 准确率：
Facebook 研究者利用这些模型建立了 Facebook AI 性能评估平台的基准，该基准基于 32-bit ARM 环境的大量手机设备
- 对于 TensorFlow Lite 线程设置，研究者尝试了一到四个线程，并报告了最快速的结果
- 结果显示 TensorFlow Lite 使用四线程的性能最优，因此后续研究中使用四线程来对比 TensorFlow Lite 和 QNNPACK
- 下表展示了结果，以及在典型智能手机和高端机上，基于 QNNPACK 的算子速度比 TensorFlow Lite 快得多。

网友评论

深度学习

本文标题：46.现有移动端开源框架及其特点——QNNPACK-2

本文链接：https://www.haomeiwen.com/subject/kwvdddtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

46.现有移动端开源框架及其特点——QNNPACK-2

46.1 深度卷积

46.2 性能优势

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

深度学习