神经网络之硬件

作者: b88a0f2ae902 | 来源:发表于2018-07-22 21:48 被阅读2次

神经网络之硬件
神经网络之硬件
两阶段目标检测综述
人工智能，神经网络，机器学习，深度学习和大数据作弊表
1.4 深层神经网络（Deep Neural Networks）
装修硬件之设备篇
tensorflow中tensorboard 的简单实现
力卉编程 | uboot编程的参考网站目录
留学：出国留学条件之硬件成绩
Transformer量化笔记

姓名：楼竞扬学号：15020199020

转载自：http://www.thebigdata.cn/QiTa/14678.html，有删节。

【嵌牛导读】：神经网络硬件是计算机体系结构、人工智能和神经科学等多学科深度融合、交叉的一个领域，是利用专门的硬件电路对神经网络算法进行处理。本文简要介绍神经网络硬件的发展现状与应用。

【嵌牛鼻子】：神经网络硬件、计算机、人工智能、神经科学

【嵌牛提问】：神经网络硬件是什么？发展现状如何？应用在哪些方面？

【嵌牛正文】：

1. 背景

　　二十世纪八九十年代，国内外曾掀起一阵研究神经网络硬件的热潮。但是由于整个智能领域的研究陷入低潮，神经网络硬件的研究也趋于停滞。近年来，计算机体系结构、人工智能应用出现了一些新的趋势，神经网络硬件加速器又重新回到工业界和学术界的视野。

2.计算机体系结构：暗硅

　　自计算机诞生以来，性能不断提升的处理器芯片使人类处理和计算大规模数据的能力不断增强，强大的计算能力也推动着其他学科的不断发展，反过来各个学科也促使人类不断追求更加强大的计算能力。

　　处理器芯片厂商一直以来都是通过更高的主频来提升计算机性能。根据摩尔定律，处理器芯片上的晶体管数量和峰值功耗都在不断增加。由于时钟频率的提高和泄漏电流的增加，需要提高驱动电压来快速识别晶体管的状态。驱动电压与时钟频率有一定的正比关系，根据晶体管的功耗估算公式，可以得出，功耗的增加大大超过了性能的提升。根据英特尔公司的研究报告，3%的功耗只能带来1%性能的提升，这种代价过于昂贵。功耗的提升和处理器芯片有限的封装散热能力也有突出的矛盾。受限于封装功耗，大部分的晶体管无法同时全速工作，出现“暗硅(dark silicon)”。目前晶体管工艺仍有发展空间，随着三维堆叠(3D-stack)技术的发展，可以预见芯片的集成度仍将提升，功耗密度(powerdensity)将使散热问题更加突出。

　　目前工业界和学术界的共识是：体系结构需要用“暗硅”实现加速器——针对特定应用或算法而定制的硬件电路。从移动通信终端到数据中心，加速器是提升性能和能效的最有效手段。有研究表明，加速器能够使一些应用的能效提升50~1000倍。神经网络硬件加速器又重新成为体系结构研究的重要内容。

3.深度学习技术

　　神经网络的研究分为生物启发的神经网络(bio-inspired neural network)和人工神经网络(artificialneural network)两类。前者由神经生物学家关注，用于建立一种合适的模型（从生物学而来）来帮助理解神经网络和大脑是如何工作的，比较有代表性的是脉冲神经网络(spiking neural network)。最近，IBM在《自然》上发表了他们的成果——TrueNorth，高通公司也宣布生物启发的神经网络芯片Zeroth处理器的消息。这些模型都采用了更加接近生物学的模型，并且已经有一些实际应用的场景。

　　人工神经网络是机器学习方法的一种，其起源要追溯到1943年麦卡洛克(McCulloch)和皮茨(Pitts)的工作。他们设计的神经元模型构成的网络原则上可以计算任何函数。1949年赫布(Hebb)的工作阐述了突触修正的生理学模型。1958年罗森布拉特(Rosenblatt)第一个提出了感知器作为有监督学习的模型，80年代霍普菲尔德(Hopfield)发表了一篇引起巨大争论的论文，也推动了神经网络研究的高速发展。最近本希奥(Bengio)、欣顿(Hinton)等人提出的深度学习在许多应用程序上（如网页搜索、图像分析、语音识别等）表现出良好的特性，激起了人们的极大热情，再次推动了神经网络研究的发展。深度神经网络(Deep Neural Network, DNN)和卷积神经网络(ConvolutionalNeural Network, CNN)相继引起人们的极大兴趣。

4.神经网络硬件发展现状

　　随着新的神经网络模型的不断提出，硬件设计技术的不断更新，神经网络硬件也越来越难以单纯的标准划分出具有实际意义的分类。从弗林(Flynn)在1972年提出的单指令流单数据流(SISD)、单指令流多数据流(SIMD)、多指令流单数据流(MISD)、多指令流多数据流(MIMD)的分类方法，到保罗(Paolo Ienne)在1995年提出的基于灵活性和性能进行串并行的分类方案，伊斯克·阿贝(Isik Aybay)在1996年提出的多属性分类（片上/片外、数字/模拟/混合等）方案，再到伊布杜詹恩(Izeboudjen)在2014年提出的更加偏向体系结构的分类方案，研究人员一直在努力将现有的神经网络硬件纳入一个清晰的体系。迪亚斯(Dias)在2004年总结了之前多年商业化的硬件神经网络。米斯拉(Misra)等人在2010年调研了从20世纪90年代起近20年的硬件神经网络。

　　在本文中，我们的目的不是探讨如何将神经网络硬件分类，而是展示神经网络硬件在近几年的发展成果。

面向机器学习的人工神经网络硬件

以机器学习相关任务为加速目的的研究多集中在多层感知器(Multilayer Perceptron, MLP)、深度神经网络、卷积神经网络。这三种网络具有相似的结构，在很多场景下具有很好的精度表现，应用也极为广泛。多层感知器的每一层都基本相同，将输入和相应权值相乘的结果相加，通过激活函数(如sigmoid(x)和tanh(x))后，从最后一层获得输出结果。典型的深度神经网络和卷积神经网络具有卷积层、降采样层(pooling)和分类层。最近又提出了归一化层，常见的有局部对比度归一化(LocalContrast Normalization, LCN)和局部响应归一化(LocalResponse Normalization, LRN)。近几年的发展趋势是网络（尤其是深度学习所用到的神经网络）越来越大，模型中的参数越来越多，数据也越来越多。

　　CPU

　　这里当属谷歌的深度学习模型最有影响力。谷歌2012年左右在非常大的图像数据集上训练深度学习模型。该模型具有10亿个神经元连接，数据集采用从网络上下载的1000万幅200×200大小的图片，在1000台16个核的机器上训练了3天。该模型在ImageNet数据集上识别22000个物体的准确率达到15.8%。

　　GPU

　　图形处理器(GPU)能够提供强大并行计算能力的特性，这使其成为神经网络硬件加速平台的首选。欧(Oh)等人早在2004年就已经通过将点积转化为矩阵操作，用以在GPU上加速神经网络。科茨(Coates)等人的论文提出，GPU可以加速到90倍以上。GPU的流行促使出现了大量深度学习的软件框架，包括Caffe、Theano、Torch、Cuda-convnet。而英伟达公司(NVIDIA)也推出了自己的深度学习库来配合以上各种框架，最大可以加速30%。百度公司目前已构建了世界上规模最大的人工神经网络模型。

　　FPGA

　　现场可编程门阵列(FPGA)的优点在于可以快速进行硬件的功能验证和评估，加快完成设计的迭代速度。但和专用集成电路(Application Specific Integrated Circuit,ASIC)相比，FPGA相对低效，这也限制了FPGA的应用范围。云(Yun)等人在2002年提出了基于传统单指令流多数据流结构的ERNA结构，在FPGA上实现了256-32-5（输入层有256个神经元、隐藏层有32个神经元、输出层有5个神经元）的多层感知器和反向传播训练算法。

　　与深度神经网络相比，卷积神经网络的一大特性是卷积层占很大的运算量，而运算中的核(kernel)是被每对输入输出特征图像所共享的，这样使得卷积神经网络的权值总量远远低于同样大小的深度神经网络。共享核的特性也使得每个输出特征图像上的神经元所需要的输入图像上的神经元是重叠的。卷积核在输入图像上滑动，与相应区域的输入神经元进行卷积运算后得到输出神经元（加上bias偏置和激活函数）。法拉贝特(Farabet)等人基于FPGA实现了卷积神经网络处理器(Convolutional Network Processor, CNP)。基于卷积神经网络处理器的人脸检测系统可以以10帧/秒的速度处理大小为512×384的视频图像。法拉贝特等人在2011年提出并在2012年开发了一种运行时可重构数据流处理器NeuFlow，并在Xilinx

　　Virtex 6 FPGA上实现。实时处理测试表明，这种实现方式的加速比高出CPU 100倍，功耗在10W左右。桑卡拉达斯(Sankaradas)等人在2009年用FPGA加速了卷积神经网络。卷积运算被重点关注，实现了多个k×k的卷积核运算单元和相应的降采样非线性函数，片外存储和大带宽的数据连接用来保证运算的数据供应。然而卷积核的大小非常不灵活。查克拉哈(Chakradhar)等人在2010年采用systolic-like结构在200MHz的FPGA上实现了卷积神经网络协处理器，来实时处理VGA(640×480)视频图像（25~30的帧率）。佩曼(Peemen)等人在2013年利用卷积神经网络的计算特性实现了卷积神经网络协处理器。其中，MicroBlaze作为主控处理器实现卷积神经网络特殊的数据需求，计算单元PE与单指令流多数据流的结构类似。与使用传统的高速暂存存储器(scratchpadmemory)的FPGA实现的处理器相比，利用卷积神经网络特性实现的处理器的资源开销是前者的1/13。

ASIC

　　采用自定制电路可以给予设计者最大的自由度去实现设计，同时硬件设计的取舍也很大程度上取决于设计者本身。菲姆(Pham)等人利用IBM的45nmSOI工艺库对NeuFlow进行了评估，认为如果将NeuFlow实现为专用集成电路，其性能功耗比将达到490 GOPs/W1，远大于FPGA实现的14.7GOPs/W和GPU的1.8 GOPs/W。

　　ASIC可以采用数字电路、模拟电路或者混合设计。最早的模拟芯片如英特尔的ETANN，包含64个全连接的神经元和10240个权值连接。随后有很多在ETANN上的尝试，如Mod2Neurocomputer将12个ETANN连接，实时处理图像。刘(Liu)等人在2002年展示了包含前向通路与实时错误处理的CMOS2芯片，采用了Orbit2um的N-well工艺。早期也有大量工作采用了模拟电路。Micro Devices的MD1220是第一款商用数字芯片。埃舍梅尔扎德(Esmaeilzadeh)在2010年提出了采用近似运算的硬件多层感知器的神经网络流处理器NnSP。特曼(Temam)在2012年报告了有一定容错能力的硬件多层感知器。子东(Zidong)等人研究实现了非精确硬件神经网络。笔者所在的课题组近年来在这方面的一系列工作也得到了国际上的关注。

生物启发的脉冲神经网络硬件

尽管生物启发的神经网络很贴近真实的神经元细胞，但是它在机器学习任务上的低精度使其一直在工业界得不到应用。卷积神经网络方向的巨擘勒坎(LeCun)就曾经发表过类似的观点：“他们寄希望于复制我们所知晓的神经元和神经突触的所有细节，然后在一台超级计算机上模拟巨大神经网络，从而产生人工智能，这是幻想。”然而，很多研究人员仍然认为贴近生物特征的神经网络才是构建真正强人工智能的基石（而不是传统的机器学习类的人工神经网络）。

　　脉冲放电是生物启发的神经网络里通用的概念。单个输入刺激所携带的信息通过一连串的脉冲传递到后续神经元。这样的编码方式通常分为两类(并没有清晰的定义)，一类是将信息编码在脉冲的放电频率上，即频率编码(rate coding)，这是研究多年的工作方式;另一类是强调单个脉冲放电的精确时间，即时间编码(temporal coding)，它的难度也是不言而喻的。格斯特纳(Gerstner)和索普(Thorpe)在近些年提出了一些方法。

在硬件实现上，有一类研究是采用新兴的忆阻器(memristor)来实现神经网络的构建。奎瑞利兹(Querilioz)等人所用的模型是MNIST测试集上精度最高的脉冲神经网络模型。李(Lee)等人采用了CMOSCrossNet结构。埃依曼兹(Eryilmaz)等人专门研究了采用非易失性存储器学习问题。史密斯(Smith)在2014年研究了如何采用硬件（数字电路）高效地实现不同的LIF神经元模型。沃格尔斯坦(Vogelstein)等人比较了不同的神经元模型的模拟实现。作为BrainScale项目的一部分，舍梅尔(Schemmel)调查了Wafer-scale的脉冲神经网络。SpiNNaker实现了10亿个神经元。

5.日益重要的智能应用

　　随着技术的发展，应用发生了重大的变化，比如并行计算过去常常被狭隘地理解为科学计算，但近年来出现的一些复杂的云服务应用和移动终端上的智能处理应用，如音乐和语音识别（如Shazam和Siri）、图像/视频分析（图像/视频的自动文本标记，如Picasa和Flickr）、在线导航（如谷歌、必应和百度地图）等，对计算能力和能效提出了很高的要求。2005年，英特尔将其归纳为RMS（recognition-mining-synthesis，识别-发掘-综合）应用，如人脸识别、数据挖掘、图像合成等。其后英特尔联合普林斯顿大学推出了并行基准测试程序集PARSEC，其中大部分是RMS类应用。大部分RMS应用均基于分类、聚合、近似或优化算法。随着智能应用地位的日益提升，能显著提升智能处理速度、降低智能处理能耗的神经网络处理器自然成为业界关注的焦点。

6.类脑硬件未来之路

　　不同流派的神经网络硬件在目标、手段和方法上都存在很大差别。但是选择哪条道路更好？我想分享一下自己的一些看法。

　　从短期（3~5年）来看，基于传统CMOS的人工神经网络硬件加速器是一种比较稳健的选择。从算法研究的现状看，面向机器学习的人工神经网络在所有认知应用上的精度几乎都显著超过了同等规模的生物启发的脉冲神经网络。前者已经开始部署在不同类型的互联网应用上（图像、语音和文本的智能处理），而后者几乎没有得到工业应用。从一个硬件设计者的角度看，硬件的设计应该是算法驱动的。要想让硬件有生命力，什么算法效果好、用途广，硬件就应该支持什么算法。传统CMOS工艺是最稳定成熟的，适合短期内的硬件开发。忆阻器这样的新型器件所需要的工艺复杂，距离大规模实用化开发还有很长的路要走。如果把目标定得过高过远，可能会给这个领域的发展带来很大的风险。

　　从中期（5~10年）来看，可能会出现面向机器学习的人工神经网络硬件和生物启发的脉冲神经网络硬件并存的情况。这些年以深度学习为代表的人工神经网络非常热门，但是它有应用上的局限性。在没有高层次语义层面指导的情况下，很多图像识别问题是深度学习难以解决的。最近12306网站新推出的图片验证码就可能是这样一类的问题。例如，它会询问一组图片中哪些是开心果，而这些图片中有的是一颗开心果果仁，有的则是装在一个食品包装袋中的没剥开的开心果。我认为，没有高层次语义层面的指导（去壳的和带壳的都是开心果），现有的深度学习技术几乎无法通过逐层的特征提取来把这两个不同的开心果图片识别出来。所以深度学习技术的发展可能会遇到瓶颈。另一方面，通过学术界的深入研究，生物启发的脉冲神经网络在5~10年内在精度问题上有可能会取得一定的突破（达到或接近深度学习的精度）。一旦如此，脉冲神经网络的优势就会充分发挥出来。脉冲神经网络硬件有很强的异步性，很多时候整个硬件中只有一小部分电路需要翻转，能耗会远远低于人工神经网络硬件。如果适合脉冲神经网络硬件的忆阻器的工艺成熟，脉冲神经网络硬件的能耗优势会进一步扩大。到那时，在很多极端看重低能耗的设备（如可穿戴设备）上，生物启发的脉冲神经网络硬件有可能发挥重要的作用。

　　在更遥远的未来，神经网络硬件可能会在迈向强人工智能的路上起到比较重要的作用。真正的生物神经网络是和计算机科学家正在研究的人工神经网络乃至脉冲神经网络有极大的差别。计算机科学家所关心的神经网络是对生物神经网络进行的某种抽象。究竟什么样的抽象能保证神经网络支撑或者涌现强人工智能?对此谁心里也没有底。脉冲神经网络相对人工神经网络更接近生物，因为它能更多地体现神经元放电的时域信息，但是它也把很多分子、离子层面的信息过滤掉了，而这些信息绝非无足轻重。例如，生物学上常用于描述神经元的霍奇金-赫克斯利(Hodgkin-Huxley)方程（相关工作获得了诺贝尔奖）就对神经元离子层面上的行为进行了建模。没有人知道高级智能的涌现是否依赖于某种离子或者分子（或者基因）层面上的基本规律。所以，到底哪种神经网络硬件会胜出，很大程度上取决于我们对大脑的理解有多深刻。这也是为什么会有一些生物学家对类脑计算提出质疑。毕竟生物学对脑、神经环路以及神经元细胞的理解还不透彻，如何借鉴人脑进行计算自然会存在争议。

深度学习的出现直接推动神经网络进入新的发展高峰期。同时，类脑计划也在各个国家火热开展。这一切，无论是希望能够高效地完成机器学习任务，还是朝着终极的强人工智能前进，神经网络硬件在提升计算能力的同时也在推进着模型的发展，这都将有力地促进相关学科的发展。

神经网络之硬件
姓名：楼竞扬学号：15020199020 转载自：http://www.thebigdata.cn/QiTa/1...
神经网络之硬件
姓名：韩文畅学号：14020199001 转载自：http://www.thebigdata.cn/QiTa/1...
两阶段目标检测综述
两阶段目标检测在上个世纪，深度神经网络就已经被提出了，但是在当时机器硬件还未达到实验要求，深度神经网络便沉浸了1...
人工智能，神经网络，机器学习，深度学习和大数据作弊表
看到这些备忘单不明觉厉，收藏之。原文在此神经网络神经网络图神经网络公式机器学习概述机器学习：Sciki...
1.4 深层神经网络（Deep Neural Networks）
1. 深层神经网络（Deep L-layer Neural network）什么是深度神经网络呢？首先，我们之...
装修硬件之设备篇
由于装修路漫漫、征程难，所以分为《装修硬件之设备篇》、《装修硬件之基础篇》《装修软件之美饰篇》和《装修软件之艺术篇...
tensorflow中tensorboard 的简单实现
目标：利用终端实现一个简单的神经网络示意图硬件工具：Mac软件工具：tensorflow 创建py文件这是一个小...
力卉编程 | uboot编程的参考网站目录
UBoot初步学习：第1阶段——uboot分析之硬件初始化start.S(4) 第1阶段——uboot分析之硬件...
留学：出国留学条件之硬件成绩
出国留学条件之硬件成绩出国留学，够条件才有可能！硬件成绩是出国留学申请的必备条件，留学国家不同，要求的硬件成绩...
Transformer量化笔记
前言 AI芯片（这里只谈FPGA芯片用于神经网络加速）的优化主要有三个方面：算法优化，编译器优化以及硬件优化。算法...