• 作者:[美] 吴军
• 出版年份:2016-8
• 出版社:中信出版集团
• 前言
2016年是机器智能历史上一个具有几年意义的年份,他是一个时代的结束,也是新时代的开始。1956年提出人工智能的概念,60年后Google的围棋计算机AlphaGo打败了李世石,这一胜利,宣告了机器智能时代的到来。
• 第一章 数据---人类建造文明的基石
从古至今,人类在农作生活、认识自然规律、认识天文学、推动社会经济发展,都伴随着数据的产生和使用,对数据和信息进行处理后,人类就可以获得知识。进入信息时代,电子计算机的使用产生了大量的数据,数据的使用推动社会发展,慢慢进入下一个技术革命时代---智能时代。
数据是文明的基石:以天文学发展历程为例
修建金字塔的几千年前,古埃及人在尼罗河附近 观天象,辩农时,开创了天文学;
公元前4000~3000年前,美索不达米亚平原的苏美尔人计算出月亮和五大行星的运行周期,并且能预测日食和月食。
公元前551年,古希腊人将美索不达米亚平原的数学和天文成就带回古希腊,古希腊成为了全世界数学和天文学的中心。代表:柏拉图的学生欧克多索建立地心说早期模型,阿基米德建立日心说早起模型等。
公元130年,托勒密以观测数据为基础,用40~60个小圆套大圆的方法,精确计算出行星运动轨迹。
1600年左右,开普勒从师父第谷继承大量的、精确的数据,用一个椭圆模型清楚地描述了星体运动规律,提出了开普勒三定律。
1700年左右,牛顿提出万有引力定律,彻底解释天体运动是椭圆的原因,并且修正了开普勒的椭圆模型,将椭圆的焦点从太阳移到太阳系的中心。
人类社会发展产生了大量的数据,反之可以利用数据的相关性解决很多难题。日本人使用铁人王进喜的照片,分析出很多大庆油田的详细信息,最终中标政府的保密项目;Google根据用户搜索流感的相关信息,预测流感传播在全世界的趋势变化。
王进喜照片人类掌握足够的数据量,如何使用也是需要面对的难题。Google给了一个很好的答案,AlphaGo分析总结了几十万盘围棋数据后,得到一个统计模型,对于不同的局势下可以比人类更加有效的行棋。这种方法叫做数据驱动方法,即在数据量足够的前提下,使用若干个简单的模型代替一个复杂的模型。
• 第二章 大数据和机器智能
现在人人都知道人工智能,哪如何才能判定是否机器智能呢?有什么办法可以进行这方面测试呢? 当然有,就是图灵测试,即让一台机器和一个人坐在幕后,让一个裁判同时与幕后的任何机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器有了和人同等的智能。
从1956年提出人工智能后,科学家一直研究如何让机器变得智能,主要在语音识别、机器翻译、战胜人类象棋冠军、自动回答问题等方面,最初想让机器像人类一样思考,但是十几年来并无实质性进展。直到1972年,贾里尼克到IBM做学术休假,使用大量数据,基于统计方法研究出一款语音识别系统,识别率从70%提升到90%以上,同时语音识别规模从几百词增加到两万多,有了质的飞跃,这种方法被称为数据驱动方法。
2005年,在机器翻译领域并无积累的Google团队参加NIST交流和测评,并以巨大优势打败全世界的机器翻译团队,揭开神秘面纱后,使用的方法还是两年前的方法,但是使用了成千上万倍的数据,量变完成到质变的飞跃。在大数据的基础上,使用数据驱动方法催熟了机器智能。
2005年NIST对 从阿拉伯语到英语的评比结果大数据对于机器智能的意义已经非常明确,但并不是数量大就将机器变得智能。大数据除了数据量大外还有两个重要特征,多维度和完备性。举个简单的例子,使用百度或者Google进行搜索时,输入几个字就可以联想出想要搜寻的信息。依靠数据量大,输入前几个关键字联想出想要搜寻的信息,有时候并不是我们想要的,当输入所有字后,百度会自行保存这部分关键词,而且保存相关搜寻结果,下一次搜索此信息时就可以准确提示整个信息;而且针对相同的关键字,不同人可能获得不同的搜索结果。这就需要多维度的数据,且具完备性,根据不同人的搜索习惯,可以有不同的信息。
百度搜索关键字联想补全未完,待续...
网友评论