凡遮掩处，皆有想象

作者: _觉浅 | 来源:发表于2018-02-01 14:37 被阅读7次

凡遮掩处，皆有想象
2021-01-26
凡低价皆有代价
凡日皆有痕迹
凡入眼，皆有心
凡努力皆有去处
凡走过，皆有印记
爬拉猴传
读书摘记
无神论者

最近看了康奈尔大学计算机系教授John Hopcroft的演讲《AI革命》。

他人为，目前的人工智能（包括深度学习）虽然进步很大，但还只是高维空间的模式识别，还谈不上智能。

这个观点与微软亚洲研究院洪小文院长的说法基本是一致的。John Hopcroft是1986年图灵奖的获得者，所以我们暂不用质疑他的学术能力，换言之，这就是目前AI的现状，不管吃瓜群众和媒体如何渲染，不论风投和鸡汤（此处仅指李开复同志）如何鼓吹，作为计算机行业的从业者，对AI要有个清晰的认识。

John Hopcroft用两张猫的图片举了个例子：

人眼看不出差别的两只猫（图片来自于MSR的微信公众号）

左边图片上的猫被正确识别了，而右边图片的猫被识别为一辆汽车，因为右边图片有几个像素被修改过了。由此我们可以知道，机器识别的方式还是“计算”，不管是推导方程还是数值逼近，都是计算；而人来识别这两幅图片，是不需要什么复杂计算的，这就是目前的机器智能和人类智能的差别所在。

在图像识别领域，“图像遮挡”是个非常困难的问题，识别准确率非常低。也就是说，机器（算法）还很难根据显露出来的特征去推断被遮挡的部分是什么样子，从而无法判断图像中的对象是什么。但是这对于人类来讲，就是小意思了：商场里的推销人员穿上道具服扮成米奇，我们知道那是个人不是只老鼠；只看见一个轮子就能推断出那是一辆汽车或者自行车；看见一片黄叶就觉得秋天要来了。这不需要复杂的计算，常识之外，几乎是直觉和想象。

我家孩子还小，她只会简单的算术以及认识有限数量的汉字。为了验证这个问题，我做了个实验，让她来识别图像。我先准备了三只猫的图片（如下）：

剪切掉不同部位的三只猫（图片来自Bing搜索）

毫不意外地，她对图中的三只猫做出了精准的识别。我问她为什么能认出来，她说从耳朵、胡子、眼睛鼻子可以猜出都是猫，因为猫就是这个样子。

然后，我又用汽车的图片（如下图）进行了一轮测试：

剪切掉不同部位的三张汽车照片（图片来自Bing搜索）

也没任何悬念，她能抓住汽车的特征（车尾、车轮、牌照），从局部推断出全景，识别的准确率100%。

好了，我把我女儿用来做这个实验，是想说明人类的识别方式的一些特征。

首先，一个东西是什么东西，前提是她要见过，不管是现实中的实物、书上的图片、电视机里的视频......总之要见过才行，不然识别的结果是“爸爸，那是什么东西？”；

第二，见过之后，她会用一种迥异于机器学习的方式来提取对象的特征，比如猫有胡子、猫的脸比较小、猫的叫声是喵喵不是嗷嗷、老虎额头有“王”字花纹、汽车有四个轮子而且比自行车轮宽大、汽车会挂牌照......

第三，识别的时候，不需要全部信息，只需要提供部分信息即可，剩余的被“遮挡”的部分，她会用想象来补充，就是脑补，看见侧面就能想象出整个汽车来；

第四，她会运用简单推理。汽车有四个轮子，这是特征也是常识。但是图上只露出了一个轮子，通过简单推理可以知道还有三个轮子，不然车子会倒，也开不走；即便把猫的胡子拔掉，她还是会认识那是一只猫，并且可以推断这是一只掉了胡子的猫。

机器学习（以Deep-Learning为例）不是这个套路。机器的训练过程大致这样子：首先，它把图像拆成多维的像素集也就是张量作为输入（最有效的方式是采用卷积层），然后为每个输入像素赋予权重，弄进神经元里去，通过特定的激活函数计算，输出到下一层神经网络中的神经元，再结合权重(w)与偏置(b)，通过特定的激活函数再计算输出到下一层......如此向前，将最终的输出结果与目标对比，用损失函数衡量模型质量，然后再反向传播，计算一堆偏导，用梯度算法更新权重和偏置的赋值，再做下一轮训练...直到用某一组参数（复杂的网络通常有成千上万个参数）和超参数的取值计算出的结果与目标最吻合（损失函数值小到我们可以接受的程度），就认为这个模型训练得可以了，准确率达到多少多少。然后就用它来识别新的图片，看它认不认识猫和汽车。

在这个过程中，我们搞了很多花样，用了很多概念和知识，比如向量、矩阵、张量、导数、偏导、梯度（梯度下降）、链式法则求导（反向传播）、函数合成、卷积、、贝叶斯概率......还有统计学知识各种模型......，用到了CPU、GPU、TPU海量的计算能力，还有成千上万张用来喂食它的训练图片，最终告诉你答案，图二那只猫是一辆汽车。

以上的概念和知识，我懂，因为我要以此为生；而我家女儿完完全全不懂，两位数的加法都会算错，但她对汽车和猫的识别精度不比我低。

基于规则的形式化的计算是人类智力的弱项，却很擅长基于直觉和想象的非形式化任务。这跟计算机的优势是截然相反的。当下人工智能的本质还是计算、计算、计算，通过海量的计算（和一点其它的玄学）在高维空间里识别模式。虽然我们在用人工神经网络模拟人类大脑的神经元的工作过程，但效果并不理想。机器和人的认知方式，本质上还是不一样，至少在目前来讲，还算不上真正的智能，需要和人的智能相结合。所以，洪小文博士说，我们是第一代和AI一起成长的人类，很幸运。

因此，对于人工智能，首先要有个正确的认识。了解它的历史、了解它的进展和成果，不神话它，这是开始学习/研究人工智能的一种正确姿势。

新闻里说，微软创始人之一保罗.艾伦（一个伟大的程序员）热衷于探索人类的大脑的秘密，由他资助的“艾伦脑科学研究所”成就斐然，在神经科学领域的地位仅次于NIH。深度学习代表了人工智能的新一个进展，但要取得下一次质的突破，还须待到脑科学有重大突破才有可能。

写到这里，忽然想起鲁迅批判中国人的一段话来：

一见短袖子，立刻想到白胳膊，立刻想到全裸体，立刻想到生殖器，立刻想到性交，立刻想到杂交，立刻想到私生子。中国人的想象惟在这一层能够如此跃进。

什么时候机器具备这种想象力，不惧遮挡，见微知著、一叶知秋，就真的智能了。

欢迎关注我的公众号：AI教室（aiclassroom）

网友评论

本文标题：凡遮掩处，皆有想象

本文链接：https://www.haomeiwen.com/subject/wiydzxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

凡遮掩处，皆有想象

相关文章