在现今,商业或社交网站都存在着大量的“深度学习”算法。在过去的十年中,这些强大的人工智能(AI)工具已经越来越成功地应用于图像分析,语音识别,翻译和许多其他任务。实际上,这些算法的计算和功率要求构成了现在数据中心的主要需求,而且仍在增长。
研发设计人员经常将大部分高度并行计算卸载到商业硬件上,尤其是最初为快速图像渲染而开发的图形处理单元(GPU)。这些芯片特别适合于计算密集型“训练”阶段,该阶段使用许多经过验证的示例来调整系统参数。 “推理”阶段,其中部署深度学习来处理新颖的输入,需要更大的存储器访问和快速响应,但是历史上也已经用GPU实现。
然而,为了应对快速增长的需求,公司正在竞相开发更直接赋予深度学习能力的硬件,最迫切需要进行推理以及培训。大多数工作都集中在“加速器”上,这些加速器与GPU一样,在通用处理器的松散方向下快速执行其专门任务,尽管也正在探索完整的专用系统。本文所联系的大多数公司都没有回应或拒绝在这个快速发展和竞争激烈的领域讨论他们的计划。
深度神经网络
自20世纪80年代以来使用的神经网络受到人脑大脑简化模型的启发。 深度学习技术使神经网络具有更高级别的复杂性,通过计算能力的大幅增加以及在特定域中训练系统所需的大型验证示例数据库的可用性,其成功实现了它们。
“深层”神经网络将神经元排列成层(多达数十层),逐步“推断”输入数据的更抽象表示,最终导致其结果; 例如,翻译的文本,或识别图像是否包含行人。
当网络最终用于推理时,权重通常在系统暴露于新输入时保持固定。 层中的每个神经元执行独立计算(将其每个输入乘以相关权重,添加乘积,并进行非线性计算以确定输出)。 伊利诺伊大学厄巴纳 - 香槟分校的计算机科学家克里斯托弗弗莱彻表示,大部分计算都可以作为矩阵乘法,这可以让许多步骤同时完成,并且“看起来像我们一直在解决的问题 在很长一段时间内在GPU和高性能计算上。“
定制化硬件
在推理过程中,与离线培训不同,无论是在自动驾驶汽车还是在Web应用程序中,快速响应都至关重要。 “延迟是云提供商最重要的事情,”弗莱彻指出。相比之下,他说,传统的“GPU是专为那些不关心延迟的人而设计的,但是有很多工作,只要他们获得全部吞吐量,一切都会好起来的。”
认识到响应时间的重要性以及预测神经网络应用不断增加的功率需求,云计算巨头谷歌开发了自己的专用集成电路(ASIC),称为“张量处理单元”(TPU),用于推理。谷歌在2017年报告说,在其数据中心,TPU运行常见的神经网络比现代CPU或GPU快15到30倍,并且相同的计算性能(每秒操作数)使用了30到80倍的功率。为了保证低延迟,设计人员简化了硬件并省略了使现代处理器忙碌的常见功能,但也需要更多功率。关键矩阵乘法单元使用“收缩”设计,其中数据在操作之间流动而不返回到存储器。
到目前为止,谷歌在设计自己的芯片方面似乎并不常见,而不是采用商用替代品。
但是谷歌也发布自己的TPU以及Edge TPU——TPU是针对TensorFlow上的机器学习工作负载量身定制的定制应用专用集成电路(ASIC)。 去年,谷歌宣称它的TPU比现代GPU和推理CPU快15到30倍,并且TOPS / Watt测量值提高了30-80倍。并且谷歌在同年还发布了用于边缘计算的Edge TPU,以及相关设备:AIY Projects Edge TPU Dev Board和Edge TPU Accelerator 围绕谷歌新推出的专用边缘TPU。
例如,微软一直在使用现场可编程门阵列(FPGA),它可以在部署后重新布线以执行特定的电路功能。 Facebook正在与英特尔合作评估其ASIC,称为神经网络处理器。该芯片针对人工智能应用,在英特尔于2016年收购的Nervana开始的。不出所料,Nvidia已经是GPU的主要供应商,已经发布了更新的设计,据说它将更好地支持神经网络应用。推理和培训。
这些芯片遵循其他专业应用程序(如游戏)所熟悉的策略。将繁重的计算分配给共享具有通用处理器和存储器的总线的专用加速器芯片允许快速实现新想法,并且允许芯片设计者专注于专用电路,假设所有需要的数据将在手边。然而,Fletcher表示,这种“最简单”方法造成的内存负担很可能导致系统集成更紧密,例如将加速器功能带到处理器的片上。 “我认为我们将不可避免地看到世界朝这个方向发展。”
神经形态硬件
新芯片利用的一种技术是使用低精度,通常是定点数据,8位甚至更少,特别是对于推理。 伊利诺伊州的弗莱彻说:“精确是现在深入学习研究的狂野西部。” “就硬件加速器而言,所有这些问题中的一个主要问题是,在不降低分类准确度的情况下,你能在多大程度上实现这一目标?”
来自谷歌,英特尔和其他公司的结果表明,在正确准备数据时,这种低精度计算可能非常强大,这也为新型电子产品提供了机会。实际上,神经网络受到生物大脑的启发,并且20世纪80年代的研究人员使用模仿大脑架构特征的专用硬件来实现它们。即使在过去十年中,美国和欧洲的大型政府资助计划都采用“神经形态”芯片,这些芯片以生物学为基础的原则运作,以提高性能并提高能效。例如,这些项目中的一些直接硬连接到单个电子神经元的许多输入,而其他项目使用短的异步电压尖峰(如生物神经元)进行通信。然而,尽管如此,新的AI芯片都使用传统的数字电路。
“任何非常节能的系统都会非常稀疏,”普拉特说,最好的例子是我们的大脑以低于20瓦的功率实现的惊人的计算能力。
虽然功率对于数据中心尤其是手持设备至关重要,但普拉特指出,即使是汽车也可能面临严峻的电力挑战。 原型高级安全和自动驱动功能需要数千瓦,但需要更多才能接近人类能力,普拉特认为硬件最终需要利用更多的神经形态原理。 “我非常乐观,即将发生,”他说。 “它还没有发生,因为在效率和原始计算能力方面都有很多性能改进,用传统方法开采,但我们将耗尽。”
网友评论