学习笔记DL003:神经网络第二、三次浪潮，数据量、模型规模，精

作者: 利炳根 | 来源:发表于2017-11-19 03:34 被阅读371次

学习笔记DL003:神经网络第二、三次浪潮，数据量、模型规模，精
神经网络学习算法
keras学习-nlp (1)
45-R语言机器学习：神经网络与深度学习
T4-深度学习介绍与反向传播机制
DFINITY史诗级项目上线了
2020-12-30
Raise a Child in Large Language
统计学习方法笔记(第二章个人笔记)
迁移网络实现原理

神经科学，依靠单一深度学习算法解决不同任务。视觉信号传送到听觉区域，大脑听学习处理区域学会“看”(Von Melchner et al., 2000)。计算单元互相作用变智能。新认知机(Fukushima,1980)，哺乳动物视觉系统结构，处理图片强大模型架构，现代卷积网络基础(LeCun et al., 1998c)。神经网络基于整流线性单元(rectified linear unit)神经单元模型。原始认知机(Fukushima,1975)更复杂。简化现代版，Nair and Hinton(2010b)和Glorot et al.(2011a) 神经科学，Jarrett et al.(2009a) 面向工程。真实神经元计算与现代整流线性单元不同函数，没有提升性能。对神经科学生物学习没有足够了解，不能为训练架构学习算法提供借鉴。现代深度学习从应用数学基本内容(线性代数、概率论、信息论、数值优化)获取灵感。计算神经科学，大脑在算法层面工作，独立于深度学习。深度学习领域关注构建计算机系统，解决智能解决任务。计算机器神经科学关注构建大脑真实工作、精确模型。

20世纪80年代，神经网络第二次浪潮。联结主义(connectionism)或并行分布处理(parallel distributed procession)(Rumelhart et al., 1986d;McClelland et al., 1995)。认知科学，理解思维跨学科途径，融合不多个不同分析层次。符号模型难解释大脑用神经元实现推理功能。基于神经系统实现认知模型(Touretzky and Minton, 1985)。心理学家Donald Hebb，20世界40年代工作(Hebb, 1949)。联结主义，网络将大量简单计算单元连接在一起实现智能行为。同样适用于生物神经系统神经元。

分布式表示(distributed representation)(Hinton et al., 1986)。系统每一个输入由多个特征表示，每一个特征参与到多个输入表示。反向传播，训练具有内部表示深度神经网络，反向传播算法普及(Remelhart et al., 1986c;LeCun,1987)。训练深度模型主导方法。

20世纪90年代，Hochreiter(1991b)和Bengion et al.(1994b)，长序列建模。Hochreiter和Schmidhuber(1997)引入长短期记忆(logn short term memory, LSTM)网络。LSTM 序列建模任务广泛应用，Google 自然语言处理任务。

第二次浪潮持续到20世纪90年代中期，机器学习其他领域，核方法(Boser et al., 1992; Cortes and Vapnik, 1995; Scholkopf et al., 1999)，图模型(Jordan, 1998)在重要任务效果很好。神经网络热潮第二次衰退，一直持续到2007年。(LeCUN et al., 1998c; Bengio et al., 2001a)。加拿大高级研究所(CIFAR)，神经计算和自适应感知(NCAP)研究计划，联合Geoffrey Hinton、Yoshua Bengio、Yann LeCun领导多伦多大学、蒙特利尔大学、纽约大学机器学习研究小组。包括神经科学家、人类和计算视觉专家。20世纪80年代处法能工作得非常好，只是计算代价太高，当时可用硬件难进行足够实验。

神经网络第三次浪潮，始于2006年突破。Geoffrey Hinton表明，深度信念网络神经网络，用贪婪逐层训练策略可有效训练(Hinton et al., 2006a)。同样策略可训练其他类型深度网络(Bengio and LeCun, 2007a; Ranzato et al., 2007b)，系统提高测试样例泛化能力。普通深度学习术语。强调训练比较深神经网络，深度理论重要性(Bengio and LeCun,2007b; Delalleau and Bengio, 2011; Pascanu et al., 2014a; Montufar et al., 2014)。深度神经网络优地其他机器学习技术及手工设计功能AI系统。第三次浪潮现在已开始着眼无监督学习技术、深度模型小数据集泛化能力。更多兴趣点极是监督学习算法、深度模型充分利用大型标注数据集能力。

与日俱增数据量。训练数据增加，所需技巧减少。复杂任务达到人类水平学习算法，与20世纪80年代解决玩具问题(toy problem)一样。简化极深架构训练。成功训练所需资源。

20世纪初，统计学家用数百或数千手动制作度量研究数据集(Garson,1900; Gosset,1908; Anderson, 1935; Fisher,1936)。20世纪50年代到80年代，受生物启发机器学习开拓者用小合成数据集，如低分辨率字母位图，低计算成本下表明神经网络学习特定功能(Widrow and Hoff,1960; Rumelhart et al., 1986b)。20世纪80年代和90年代，机器学习变得更偏统计，用成千上万个样本更大数据集，如手写扫描数字MNIST数据集(LeCun et al., 1998c)。21世纪第一个10年，CIFAR-10数据集(Krizhevsky and Hinton,2009)。2011-2015，数万到数千万样例数据集，完全改变深度学习可能实现。公共Street View House Numbers数据集(Netzer et al., 2011)。各种版本ImageNet数据集(Deng et al., 2009,2010a; Russakovsky et al., 2014a)。Sprots-1M数据集(Karpathy et al., 2014)。翻译句子数据集，Canadian Hansard IBM数据集(Brown et al., 1990)。WMT 2014英法数据集(Schwentk,2014)。

社会日益数字化驱动数据集大小增加。活动在计算机，记录，联网，集中管理，整理机器学习数据集。监督ipwya学习算法，每类5000个标注样本，可达到接受性能。1000万个标注样本数据集训练，达到或超过人类表现。更小数据集，无监督或半监督学习未标注样本。

MNIST数据集。“NIST”，国家标准和技术研究所(National Institute of Standards and Technology)。“M”，修改(Modified)，更容易与机器学习算法一起用，数据预处理。MNIST数据集，手写数字扫描、标签(每个图像包含0~9数字)。深度学习最简单最广泛测试。Geoffrey Hinton，机器学习果蝇。在受控实验室条件研究算法。

与日俱增模型规模(每个神经元连接数)。现在拥有计算资源可运行更大模型。联结主义，动物很多神经元一起工作变聪明。最初，人工神经网络神经元连接数受限硬件能力，现在主要是出于设计考虑。

神经元总数目，神经网络惊人的小。隐藏单元引入，人工神经网络规模每2.4年扩大一倍。更大内存、更快计算机机、更大可用数据集驱动。更大网络在更复杂任务实现更高精度。至少21世纪50年代，人工神经网络才具备人脑相同数量级神经元。生物神经元表示功能比目前人工神经元表示更复杂。

感知机(Rosenblatt,1958,1962)。自适应线性单元(Widrow and Hoff,1960)。神经认知机(Fukushima，1980)。早期后向传播网络(Rumelhart et al., 1986b)。用于语音识别循环神经网络(Robinson and Fallside,1991)。用于语音识别多层感知机(Bengio et al., 1991)。均匀场sigmoid信念网络(Saul et al., 1996)。LeNet5 (LeCun et al., 1998c)。回声壮态网络(Jaeger and Haas,2004)。深度信念网络(Hinton et al., 2006a)。GPU加速卷积网络(Chellapilla et al., 2006)。深度玻尔兹曼机(Salakhutdinov and Hinton,2009a)。GPU加速深度信念网络(Raina et al., 2009a)。无监督卷积网络(Jarrett et al., 2009b)。GPU加速多层感知机(Ciresan et al., 2010)。OMP-1网络(Coates and Ng,2011)。分布式自编码器(Le et al., 2012)。Multi-GPU卷积网络(Krizhevsky et al., 2012a)。COTS HPC 无监督卷积网络(Coates et al., 2013)。GoogleNet(Szegedy et al., 2014a)。

与日俱增精度、复杂度，对现实世界冲击。最早深度模型，识别裁剪紧凑且非常小图像单个对象(Rumelhart et al., 1986d)。神经网络处理图像尺寸逐渐增加。现代对象识别网络处理丰富高分辨率照片，不需要被识别对象附近裁剪(Krizhevsky et al., 2012b)。现代网络能识别到少1000个不同类别对象。ImageNet大型视觉识别挑战(ILSVRC)，每年举行。卷积网络第一次大幅赢得挑战，前5错误率从26.1%降到15.3%(Krizhevsky et al.,2012b)。网络针对每个图像可能类别生成顺序列表，除15.3%测试样本，其他测试样本正确类标出现在列表前5项。深度卷积网络连续赢得比赛，深度学习前5错误率降到3.6%。Russakovsky et al.(2014b)和He et al.(2015)。

语音识别，20世纪90年代后，直到2000年停滞不前。深度学习引入(Dahl et al., 2010; Deng et al., 2010b; Seide et al., 2011; Hinton et al., 2012a)，语音识别错误率下降。

深度网络行人检测、图像分割得到成功(Sermanet et al., 2013; Farabet et al., 2013; Couprie et al., 2013)，交通标志分类取得超越人类表现(Ciresan et al., 2012)。

Goodfellow et al.(2014d)，神经网络学习输出描述图像整个符序列。此前，学习需要对序列每个元素标注(Gulcehre and Bengio,2013)。循环神经网络，LSTM序列模型，对序列和其他序列关系建模。序列到序列学习引领机器翻译颠覆性发展(Sutskever et al., 2014; Bahdanau et al., 2015)。

逻辑结论，神经图灵机(Graves et al., 2014)引入，学习读取存储单元和向存储单元写入任意内容。从期望行为样本学习简单程序。从杂乱和排好序样本学习对一系列数排序。自我编程技术起步阶段，原则上未来可适用几科所有任务。

强化学习(reinforcement learning)。自主智能体，没有人类操作者指导，试错学习执行任务。DeepMind表明，深度学习强化学习系统学会玩Atari视频游戏，在多种任务可与人类匹配(Mnih et al., 2015)。深度学习显著改善机器人强化学习性能(Finn et al., 2015)。

深度学习应用高利润，顶级技术公司：Googel、Microsoft、Facebook、IBM、Baidu、Apple、Adobe、Netflix、NVIDIA、NEC。

深度学习进步依赖软件基础架构进展。软件库，Theano(Bergstra et al., 2010a; Bastien et al., 2012a)、PyLearn2(Goodfellow et al., 2013e)、Torch(Collobert et al., 2011b)、DistBelief(Dean et al., 2012)、Caffe(Jia,2013)、MXNet(Chen et al., 2015)、TensorFlow(Abadi et al., 2015)。支持重要研究项目或商业产品。

对象识别现代卷积网络为神经科学家提供视觉处理模型(DiCarlo, 2013)。处理海量数据、科学领域有效预测工具，成功预测分子相互作用，帮助制药公司设计新药物(Dahl et al., 2014)。搜索亚原子粒子(Baldi et al., 2014)。自动解析构建人脑三维图显微镜图像(Knowles-Braley et al., 2014)。

深度学习是机器学习的一种方法。

参考资料：
《深度学习》

欢迎推荐上海机器学习工作机会，我的微信：qingxingfengzi

我有一个微信群，欢迎一起学深度学习。

学习笔记DL003:神经网络第二、三次浪潮，数据量、模型规模，精
神经科学，依靠单一深度学习算法解决不同任务。视觉信号传送到听觉区域，大脑听学习处理区域学会“看”(Von Melc...
神经网络学习算法
本文为《吴恩达机器学习》课程笔记神经网络学习 Neural Nerworks Learning 模型表示上面表...
keras学习-nlp (1)
keras学习-nlp (1) 书籍《Python深度学习》——笔记小结与其他所有神经网络一样，深度学习模型不会...
45-R语言机器学习：神经网络与深度学习
《精通机器学习：基于R 第二版》学习笔记 1、神经网络介绍 “神经网络”的概念相当宽泛，它包括了很多相关的方法。我...
T4-深度学习介绍与反向传播机制
深度学习采用深度神经网络作为模型进行学习。步骤选择神经网络模型评估选择最好结果反向传播通过链式法则，...
DFINITY史诗级项目上线了
目录什么是Dfinity？ Dfinity团队背景代币经济模型和Dfinity神经网络（BNS）融资规模 D...
2020-12-30
智能推荐算法演变及学习笔记（二）：基于图模型的智能推荐（含知识图谱/图神经网络）[https://www.cnbl...
Raise a Child in Large Language
背景：基于大规模的语言模型。在pretrain-fineTuning两阶段的范式下，pretrain 阶段，数据量...
统计学习方法笔记(第二章个人笔记)
统计学习方法笔记(第二章个人笔记) 标签：机器学习深度学习感知机（P25）感知机是神经网络与支持向量机的基础...
迁移网络实现原理
补发一段对于迁移网络的学习笔记。手动训练一些层数较深的神经网络会花费大量的时间。我们可以利用一些常见的神经网络模型...