神经网络芯片现状(CPU、GPU与NPU)

作者: 若隐爱读书 | 来源:发表于2021-05-12 21:51 被阅读0次

神经网络芯片现状(CPU、GPU与NPU)
CPU、GPU、NPU、TPU、SOC
华为将在中国区发布全球首颗10nm人工智能芯片麒麟970, 我国
性能优化02-布局优化
iOS 关于iOS下渲染的理解
AI芯片 FPGA 认知计算
通俗解释CPU/GPU/TPU/NPU等XPU
计算机硬件结构
CUDA C 简介
iOS-APP性能优化-卡顿优化

AI芯片主要有传统芯片和智能芯片两类。传统芯片可以实现人工智能所需的基本运算操作，但是由于传统芯片为通用计算设计，所以架构、性能等方面无法适应AI的快速发展与海量运算。

CPU

在计算机的发展进程中，CPU(Central Processing Unit,中央处理单元) 发挥着重要作用。早期cpu的发展遵循摩尔定律，硬件与软件相互结合、协同发展，来适应上层应用的加速。今年来，摩尔定律逐渐成失效趋势，硬件的发展无法满足现代产业的发展。新的体系结构与软件框架成为新的需要。
多核处理器是其中一种优秀的解决方案，Intel公司的core i7系列的处理器，基于x86指令采用了4个独立内核构建的指令并行处理核心。这种方案一定程度上提升了处理器的运行速度，但由于cpu程序多以串行编程的思路编写，大量的程序仍无法得到实际加速。人工智能神经网络的出现，加速了产业对大量并行计算的需求。因此，一场计算力的革命正悄然发生。

GPU

GPU(Graphics Processiong Unit),译名图像处理单元。与通用CPU相比，GPU提供了多核并行计算的基础结构，且核心数非常多，可以支撑大量数据的并行计算。并行计算或称平行计算是相对于串行计算来说的。它是一种一次可执行多个指令的算法，目的是提高计算速度，及通过扩大问题求解规模，解决大型而复杂的计算问题。
由于GPU独特的优势，它逐渐向超级计算方向发展，并深刻影响和改变了自动驾驶、生物分子仿真、医药制造、智能视频分析、同声翻译，乃至深度学习领域。
英伟达在GPU市场处于领先地位。为兼容大规模数据运算，英伟达专门提出了CUDA(Compute Unified Device Architecture).CUDA由专用的指令集架构以及GPU内部的并行计算引擎组成,它提供了GPU硬件的直接访问接口，使得访问GPU无需依赖传统的图形应用编程接口，而是使用一种类C语言方式实现并行计算编程。由于配套完整，使用方便。Nvida在GPU市场占有绝对的优势。

英伟达RTX3090

TPU

张量处理器，专用于神经网络工作负载的矩阵处理器，无法支持其他领域的应用，所谓是专款专用。TPU 的速度非常快、能耗非常小且物理空间占用也更小。TPU放置了成千上万的乘法器和加法器并将它们直接连接起来，以构建那些运算符的物理矩阵。这被称作脉动阵列（Systolic Array）架构。TPU从内存加载数据。当每个乘法被执行后，其结果将被传递到下一个乘法器，同时执行加法。因此结果将是所有数据和参数乘积的和。在大量计算和数据传递的整个过程中，不需要执行任何的内存访问。
TPU的核心思想就是利用大规模脉动阵列结合大容量的片上存储来高效加速深度神经网络中最为常见的卷积运算。目前，TPU应用在谷歌街景、Alapha Go等平台上，凭借谷歌强大的算法优化能力，展现了良好的应用前景。

昇腾AI处理器

百家争鸣，百舸争流。中国在AI芯片领域也开始有所建树。中国ai四小龙，商汤，云从，依图，旷世，在安防等领域取得磊磊硕果。中国通信巨头华为，也进军AI芯片领域。在2018年10月，代号为910和310的昇腾AI处理器产品推出。

910计算密度较大，采用7nm的先进工艺，最大功耗为350W,单芯片计算密度领先全球。910主要用于云端计算，为深度学习的训练算法提供强大算力。作为一款高集成度的片上系统（SoC），除了基于达芬奇架构的AI核外，昇腾910还集成了多个CPU、DVPP和任务调度器（Task Scheduler），因而具有自我管理能力，可以充分发挥其高算力的优势。昇腾910集成了HCCS、PCIe 4.0和RoCE v2接口，为构建横向扩展（Scale Out）和纵向扩展（Scale Up）系统提供了灵活高效的方法。HCCS是华为自研的高速互联接口，片内RoCE可用于节点间直接互联。最新的PCIe 4.0的吞吐量比上一代提升一倍。

昇腾910

昇腾310是一款高效、灵活、可编程的AI处理器，采用12nm的工艺。基于典型配置，八位整数精度（INT8）下的性能达到22TOPS，16位浮点数（FP16）下的性能达到11 TFLOPS，而其功耗仅为8W。昇腾310芯片采用华为自研的达芬奇架构，集成了丰富的计算单元，在各个领域得到广泛应用。随着全AI业务流程的加速，昇腾310芯片能够使智能系统的性能大幅提升，部署成本大幅降低。昇腾310在功耗和计算能力等方面突破了传统设计的约束。随着能效比的大幅提升，昇腾310将人工智能从数据中心延伸到边缘设备，为平安城市、自动驾驶、云服务和IT智能、智能制造、机器人等应用场景提供了全新的解决方案，使能智慧未来。

昇腾310

昇腾AI芯片采用达芬奇架构设计，覆盖高中低全场景，一次开发可支持多个场景部署。昇腾AI处理器在全业务流程加速方面，采用场景化视角，系统性设计，内置多种硬件加速器。同时，它们具有丰富的IO接口，配合华为多种形态的加速卡设计组合，能够很好的应对云端、终端的算力和能效挑战。为中国算力基础设施建设提供了强有力的支撑。