• 前言

2016年是机器智能历史上一个具有几年意义的年份，他是一个时代的结束，也是新时代的开始。1956年提出人工智能的概念，60年后Google的围棋计算机AlphaGo打败了李世石，这一胜利，宣告了机器智能时代的到来。

• 第一章数据---人类建造文明的基石

从古至今，人类在农作生活、认识自然规律、认识天文学、推动社会经济发展，都伴随着数据的产生和使用，对数据和信息进行处理后，人类就可以获得知识。进入信息时代，电子计算机的使用产生了大量的数据，数据的使用推动社会发展，慢慢进入下一个技术革命时代---智能时代。

数据是文明的基石：以天文学发展历程为例

修建金字塔的几千年前，古埃及人在尼罗河附近观天象，辩农时，开创了天文学；

公元前4000~3000年前，美索不达米亚平原的苏美尔人计算出月亮和五大行星的运行周期，并且能预测日食和月食。

公元前551年，古希腊人将美索不达米亚平原的数学和天文成就带回古希腊，古希腊成为了全世界数学和天文学的中心。代表：柏拉图的学生欧克多索建立地心说早期模型，阿基米德建立日心说早起模型等。

公元130年，托勒密以观测数据为基础，用40~60个小圆套大圆的方法，精确计算出行星运动轨迹。

1600年左右，开普勒从师父第谷继承大量的、精确的数据，用一个椭圆模型清楚地描述了星体运动规律，提出了开普勒三定律。

1700年左右，牛顿提出万有引力定律，彻底解释天体运动是椭圆的原因，并且修正了开普勒的椭圆模型，将椭圆的焦点从太阳移到太阳系的中心。

人类社会发展产生了大量的数据，反之可以利用数据的相关性解决很多难题。日本人使用铁人王进喜的照片，分析出很多大庆油田的详细信息，最终中标政府的保密项目；Google根据用户搜索流感的相关信息，预测流感传播在全世界的趋势变化。

王进喜照片

人类掌握足够的数据量，如何使用也是需要面对的难题。Google给了一个很好的答案，AlphaGo分析总结了几十万盘围棋数据后，得到一个统计模型，对于不同的局势下可以比人类更加有效的行棋。这种方法叫做数据驱动方法，即在数据量足够的前提下，使用若干个简单的模型代替一个复杂的模型。

• 第二章大数据和机器智能

现在人人都知道人工智能，哪如何才能判定是否机器智能呢？有什么办法可以进行这方面测试呢？当然有，就是图灵测试，即让一台机器和一个人坐在幕后，让一个裁判同时与幕后的任何机器进行交流，如果这个裁判无法判断自己交流的对象是人还是机器，就说明这台机器有了和人同等的智能。

从1956年提出人工智能后，科学家一直研究如何让机器变得智能，主要在语音识别、机器翻译、战胜人类象棋冠军、自动回答问题等方面，最初想让机器像人类一样思考，但是十几年来并无实质性进展。直到1972年，贾里尼克到IBM做学术休假，使用大量数据，基于统计方法研究出一款语音识别系统，识别率从70%提升到90%以上，同时语音识别规模从几百词增加到两万多，有了质的飞跃，这种方法被称为数据驱动方法。

2005年，在机器翻译领域并无积累的Google团队参加NIST交流和测评，并以巨大优势打败全世界的机器翻译团队，揭开神秘面纱后，使用的方法还是两年前的方法，但是使用了成千上万倍的数据，量变完成到质变的飞跃。在大数据的基础上，使用数据驱动方法催熟了机器智能。

2005年NIST对从阿拉伯语到英语的评比结果

大数据对于机器智能的意义已经非常明确，但并不是数量大就将机器变得智能。大数据除了数据量大外还有两个重要特征，多维度和完备性。举个简单的例子，使用百度或者Google进行搜索时，输入几个字就可以联想出想要搜寻的信息。依靠数据量大，输入前几个关键字联想出想要搜寻的信息，有时候并不是我们想要的，当输入所有字后，百度会自行保存这部分关键词，而且保存相关搜寻结果，下一次搜索此信息时就可以准确提示整个信息；而且针对相同的关键字，不同人可能获得不同的搜索结果。这就需要多维度的数据，且具完备性，根据不同人的搜索习惯，可以有不同的信息。