最近看了康奈尔大学计算机系教授John Hopcroft的演讲《AI革命》。
他人为,目前的人工智能(包括深度学习)虽然进步很大,但还只是高维空间的模式识别,还谈不上智能。
这个观点与微软亚洲研究院洪小文院长的说法基本是一致的。John Hopcroft是1986年图灵奖的获得者,所以我们暂不用质疑他的学术能力,换言之,这就是目前AI的现状,不管吃瓜群众和媒体如何渲染,不论风投和鸡汤(此处仅指李开复同志)如何鼓吹,作为计算机行业的从业者,对AI要有个清晰的认识。
John Hopcroft用两张猫的图片举了个例子:
人眼看不出差别的两只猫(图片来自于MSR的微信公众号)左边图片上的猫被正确识别了,而右边图片的猫被识别为一辆汽车,因为右边图片有几个像素被修改过了。由此我们可以知道,机器识别的方式还是“计算”,不管是推导方程还是数值逼近,都是计算;而人来识别这两幅图片,是不需要什么复杂计算的,这就是目前的机器智能和人类智能的差别所在。
在图像识别领域,“图像遮挡”是个非常困难的问题,识别准确率非常低。也就是说,机器(算法)还很难根据显露出来的特征去推断被遮挡的部分是什么样子,从而无法判断图像中的对象是什么。但是这对于人类来讲,就是小意思了:商场里的推销人员穿上道具服扮成米奇,我们知道那是个人不是只老鼠;只看见一个轮子就能推断出那是一辆汽车或者自行车;看见一片黄叶就觉得秋天要来了。这不需要复杂的计算,常识之外,几乎是直觉和想象。
我家孩子还小,她只会简单的算术以及认识有限数量的汉字。为了验证这个问题,我做了个实验,让她来识别图像。我先准备了三只猫的图片(如下):
剪切掉不同部位的三只猫(图片来自Bing搜索)毫不意外地,她对图中的三只猫做出了精准的识别。我问她为什么能认出来,她说从耳朵、胡子、眼睛鼻子可以猜出都是猫,因为猫就是这个样子。
然后,我又用汽车的图片(如下图)进行了一轮测试:
剪切掉不同部位的三张汽车照片(图片来自Bing搜索)也没任何悬念,她能抓住汽车的特征(车尾、车轮、牌照),从局部推断出全景,识别的准确率100%。
好了,我把我女儿用来做这个实验,是想说明人类的识别方式的一些特征。
首先,一个东西是什么东西,前提是她要见过,不管是现实中的实物、书上的图片、电视机里的视频......总之要见过才行,不然识别的结果是“爸爸,那是什么东西?”;
第二,见过之后,她会用一种迥异于机器学习的方式来提取对象的特征,比如猫有胡子、猫的脸比较小、猫的叫声是喵喵不是嗷嗷、老虎额头有“王”字花纹、汽车有四个轮子而且比自行车轮宽大、汽车会挂牌照......
第三,识别的时候,不需要全部信息,只需要提供部分信息即可,剩余的被“遮挡”的部分,她会用想象来补充,就是脑补,看见侧面就能想象出整个汽车来;
第四,她会运用简单推理。汽车有四个轮子,这是特征也是常识。但是图上只露出了一个轮子,通过简单推理可以知道还有三个轮子,不然车子会倒,也开不走;即便把猫的胡子拔掉,她还是会认识那是一只猫,并且可以推断这是一只掉了胡子的猫。
机器学习(以Deep-Learning为例)不是这个套路。机器的训练过程大致这样子:首先,它把图像拆成多维的像素集也就是张量作为输入(最有效的方式是采用卷积层),然后为每个输入像素赋予权重,弄进神经元里去,通过特定的激活函数计算,输出到下一层神经网络中的神经元,再结合权重(w)与偏置(b),通过特定的激活函数再计算输出到下一层......如此向前,将最终的输出结果与目标对比,用损失函数衡量模型质量,然后再反向传播,计算一堆偏导,用梯度算法更新权重和偏置的赋值,再做下一轮训练...直到用某一组参数(复杂的网络通常有成千上万个参数)和超参数的取值计算出的结果与目标最吻合(损失函数值小到我们可以接受的程度),就认为这个模型训练得可以了,准确率达到多少多少。然后就用它来识别新的图片,看它认不认识猫和汽车。
在这个过程中,我们搞了很多花样,用了很多概念和知识,比如向量、矩阵、张量、导数、偏导、梯度(梯度下降)、链式法则求导(反向传播)、函数合成、卷积、、贝叶斯概率......还有统计学知识各种模型......,用到了CPU、GPU、TPU海量的计算能力,还有成千上万张用来喂食它的训练图片,最终告诉你答案,图二那只猫是一辆汽车。
以上的概念和知识,我懂,因为我要以此为生;而我家女儿完完全全不懂,两位数的加法都会算错,但她对汽车和猫的识别精度不比我低。
基于规则的形式化的计算是人类智力的弱项,却很擅长基于直觉和想象的非形式化任务。这跟计算机的优势是截然相反的。当下人工智能的本质还是计算、计算、计算,通过海量的计算(和一点其它的玄学)在高维空间里识别模式。虽然我们在用人工神经网络模拟人类大脑的神经元的工作过程,但效果并不理想。机器和人的认知方式,本质上还是不一样,至少在目前来讲,还算不上真正的智能,需要和人的智能相结合。所以,洪小文博士说,我们是第一代和AI一起成长的人类,很幸运。
因此,对于人工智能,首先要有个正确的认识。了解它的历史、了解它的进展和成果,不神话它,这是开始学习/研究人工智能的一种正确姿势。
新闻里说,微软创始人之一保罗.艾伦(一个伟大的程序员)热衷于探索人类的大脑的秘密,由他资助的“艾伦脑科学研究所”成就斐然,在神经科学领域的地位仅次于NIH。深度学习代表了人工智能的新一个进展,但要取得下一次质的突破,还须待到脑科学有重大突破才有可能。
写到这里,忽然想起鲁迅批判中国人的一段话来:
一见短袖子,立刻想到白胳膊,立刻想到全裸体,立刻想到生殖器,立刻想到性交, 立刻想到杂交,立刻想到私生子。中国人的想象惟在这一层能够如此跃进。
什么时候机器具备这种想象力,不惧遮挡,见微知著、一叶知秋,就真的智能了。
欢迎关注我的公众号:AI教室(aiclassroom)
网友评论