《AI 3.0》读书笔记
《AI 3.0》读书笔记 序1
《AI 3.0》读书笔记 序2
《AI 3.0》读书笔记 序3
《AI 3.0》读书笔记 译者序
《AI 3.0》读书笔记 第一部分 若想对未来下注,先要厘清人工智能为何仍然无法超越人类智能01
02从神经网络到机器学习,谁都不是最后的解药
多层神经网络被明斯基和佩珀特所摒弃的、认为很有可能“不育的”带有扩展层的感知机,事实证明反而成了现代人工智能的基础。
多层神经网络如何工作
多层神经网络,识别编码中的简单特征
网络是以多种方式相互连接的一组元素的集合。
社交网络的元素是人,
计算机网络中的元素自然是计算机。
神经网络中,这些元素是模拟神经元,类似于在前一章中描述的感知机。
识别手写数字的简单的多层神经网络的草图
![](https://img.haomeiwen.com/i32339/d27dec5d716c2339.png)
网络由两列(层)类似感知机的模拟神经元(图中圆圈)组成。(为了简单起见,使用“单元”而非“模拟神经元”这个术语来描述网络中的元素。)
- 该神经网络有324(18×18)个输入,每个输入都设置为输入图像中相应像素的像素强度。
- 这个网络有一层是由3个所谓的“隐藏单元”(hidden unit)组成的隐藏层
- 随后是一个由10个单元组成的输出层,每个输出单元对应一个可能的数字类别。
- 图中的灰色箭头表示输入单元与每个隐藏单元之间都有一个加权连接,每个隐藏单元与每个输出单元之间都有一个加权连接。这个听上去很神秘的术语“隐藏单元”表示的是一个非输出单元,所以,称之为“内部单元”(interior unit)可能更好。
- (想象一下你的大脑结构,其中有一些神经元直接控制“输出”,如肌肉运动,但大部分神经元只与其他神经元互相传递信息,这些神经元被称为大脑的隐藏神经元。)
- 原则上,多层神经网络可以有多层隐藏单元,具有多于一层隐藏单元的网络被称为“深度网络”(deep networks)。网络的深度就是其隐藏层的数量。
(多层神经网络,因为它包含两层结构,即一个隐藏层和一个输出层,而非仅有一个输出层。)
- 多层神经网络中的每个单元将它的每个输入乘以其权重并求和,但是,与感知机不同的是,这里的每个单元并不是简单地基于阈值来判断是“激活”还是“不激活”(输出1或0),而是使用它求得的和来计算一个0~1之间的数,称为激活值。如果一个单元计算出的和很小,则该单元的激活值接近0;如果计算出的和很高,则激活值接近1。
- 网络从左向右逐层执行计算,每个隐藏单元计算其激活值,然后这些值又成为输出单元的输入,输出单元据此计算自己的激活值。
- 输出单元的激活值可以理解为多层神经网络对“看到”相应数字的置信度,具有最高置信度的数字类别被认为是它的答案——它给出的分类。
原则上,多层神经网络能够学会使用其隐藏单元来识别更为抽象的特征。
通常情况下我们很难提前知道,对于一个给定的任务,一个神经网络到底需要多少层隐藏单元,以及一个隐藏层中应该包含多少个隐藏单元才会表现更好,大多数神经网络研究人员采用试错的方式来寻找最佳设置。
无论有多少输入与输出,反向传播学习都行得通
在《感知机》一书中,明斯基和佩珀特对于是否能够设计出一种成功的、用来学习多层神经网络权重设置的算法持怀疑态度,符号人工智能阵营的其他人也持此态度。
但神经网络研究领域的一小部分核心群体仍然坚持了下来,特别是在罗森布拉特的认知心理学领域。到了70年代末和80年代初,这些研究小组中的一些人开发了一种名为“反向传播”(back-propagation)的通用学习算法来对网络进行训练,有力地驳斥了明斯基和佩珀特对于多层神经网络“不育性”的猜测。
- 反向传播算法是一种对输出端观察到的错误进行反向罪责传播,从而为网络中的每个权重都分配恰当罪责的方法。
- 反向罪责传播是指,从右向左追溯罪责源头。这使得神经网络能够确定为减少错误应该对每个权重修改多少。
- 神经网络中所谓的学习就是逐步修改连接的权重,从而使得每个输出在所有训练样本上的错误都尽可能接近于零。
- 无论神经网络有多少个输入单元、隐藏单元和输出单元,反向传播都能行得通,至少原则上如此。
- 尽管没有数学证明可以保证反向传播算法能为网络选定正确的权重,但事实上反向传播算法在许多对于简单感知机来说很难的任务上都表现得非常好。
- 例如,我同时对一个感知机和一个两层神经网络在手写数字识别任务上进行训练,两者都有324个输入和10个输出,并采用60000个样本进行训练,然后在10 000个新样本上测试两者的表现。感知机对新样本的识别正确率大约是80%,而带有50个隐藏单元的神经网络对新样本的识别正确率则达到了94%。
- 向隐藏单元致敬!神经网络究竟学到了什么,使它能够超越感知机这么多?我不知道。或许我可以找到一种探测这个神经网络上的16 700个权重的方法,从而对它的性能获得一些洞察,但一般来说,想要理解这些网络如何做出决定是非常困难的。
- 尽管没有数学证明可以保证反向传播算法能为网络选定正确的权重,但事实上反向传播算法在许多对于简单感知机来说很难的任务上都表现得非常好。
联结主义:智能的关键在于构建一个合适的计算结构
20世纪80年代,最引人注目的神经网络研究小组是加州大学圣迭戈分校的一个团队,由心理学家大卫·鲁梅尔哈特(David Rumelhart)和詹姆斯·麦克莱兰德(James McClelland)带领。
- 我们现在所说的神经网络,在当时一般被称作“联结主义网络”,其中“联结主义”(connectionist)这个术语指的是:这些网络上的知识存在于单元之间的加权连接中。
- 鲁梅尔哈特和麦克莱兰德所带领的团队撰写了联结主义的“圣经”,为《并行分布式处理》(Parallel Distributed Processing),于1986年出版,是一部两卷本的专著。
- 提出了观点:“人类比当今的计算机更聪明,是因为人的大脑采用了一种更适合于人类完成他们所擅长的自然信息处理任务的基本计算架构,例如,‘感知’自然场景中的物体并厘清它们之间的关系……理解语言,并从记忆中检索上下文恰当的信息。”
到20世纪80年代中期,依赖人类创建并反映特定领域专家知识规则的符号人工智能方法——专家系统,越来越暴露出自身的脆弱性:容易出错,且在面对新情况时往往无法进行一般化或适应性的处理。
在分析这些系统的局限性时,研究人员发现,编写规则的人类专家实际上或多或少依赖于潜意识中的知识(常识)以便明智地行动。这种常识通常难以通过程序化的规则或逻辑推理来获取,而这种常识的缺乏严重限制了符号人工智能方法的广泛应用。
根据联结主义的支持者的观点,智能的关键在于构建一个合适的计算结构以及系统来获得从数据或现实世界的行为中进行学习的能力,这是受到了大脑的启发。鲁梅尔哈特、麦克莱兰德及其团队构建了软件形式的联结主义网络来作为人类学习、感知和语言发展的科学模型。虽然这些网络并没有表现出任何接近人类水平智能的特点,但《并行分布式处理》和其他文献描述的多种多样的网络就像人工智能工艺品一样有趣,并引起了包括资助机构在内的多方面的注意。
1988年,提供了绝大部分人工智能研究资助的美国国防部高级研究计划局(DARPA)的一位高级官员宣称:“我相信我们即将着手研究的这项技术(即神经网络)比原子弹更重要。”突然之间,神经网络又流行起来了。
亚符号系统的本质:不擅长逻辑,擅长接飞盘
-
符号系统可以由人类设计,被输入人类知识,并使用人类可理解的逻辑推理来解决问题。
- 例如,一个于20世纪70年代早期开发的专家系统“MYCIN”,被给定了大约600条规则,用于帮助内科医生来诊断和治疗血液疾病。设计MYCIN的程序员在与内科医学专家经过辛苦面谈后开发了这些规则。针对一个病人的症状和医学检测结果,MYCIN能够同时对规则进行逻辑推理和概率判断来做出诊断,并能够解释其推理过程。简而言之,MYCIN是符号人工智能的一个典型范例。
-
亚符号系统往往难以阐释,并且没人知道如何直接将复杂的人类知识和逻辑编码到这些系统中。亚符号系统似乎更适合那些人类难以定义其中规则的感知任务。
- 例如,你很难写出能够完成识别手写数字、接住棒球或识别你母亲声音等任务的规则,而你基本上是连下意识的思考都没有经过就自动完成了这些事情。
完全可以用符号系统来完成类似于语言描述和逻辑推理的高级任务,而用亚符号系统来完成诸如识别人脸和声音这样的低级感知任务。尽管已经有一些融合符号和亚符号系统来构建混合系统的尝试,但至今还未取得任何显著的成功。
机器学习,下一个智能大变革的舞台已经就绪
在统计学和概率论的启发下,人工智能领域的研究者开发了一系列能够使计算机从数据中进行学习的方法,并且为了与符号人工智能区分开来,机器学习成了人工智能领域一个独立的分支学科。
考虑到当时可用的数据量和计算机的算力非常有限,用训练神经网络及其类似方法来解决现实世界的问题可能会极其缓慢,并且往往效果不好;但是,更多的数据和更强的算力很快就会来临,互联网数据的爆炸式增长和计算机芯片技术的飞速发展将会确保这点。下一个人工智能大变革的舞台已准备就绪。
机器学习时代,“大力出奇迹”将更加通行,是一个算力为王的时代。
网友评论