美文网首页
智能时代——大数据与机器智能重新定义未来

智能时代——大数据与机器智能重新定义未来

作者: felixxiao | 来源:发表于2016-11-16 00:58 被阅读157次

    2016年是机器智能历史上一个具有纪念意义的年份,距1956年香农等提出人工智能概念正好过去60年,当然不是因为60周年才具有划时代的意义,而是因为它是一个全新时代的开端。Google的AlphaGo战胜李世石,自动驾驶技术日趋成熟,大量产线工人被机器人取代......它是信息革命之后又一个新的时代变革信号——大数据和机器智能的时代已然来临。

    今天给大家分享的是吴军老师的新书《智能时代》的读书笔记,吴军博士,八年Google中日韩文搜索工作经验,回国曾任职腾讯副总裁负责搜索业务,现回归Google,著有《数学之美》、《浪潮之巅》和《文明之光》等畅销书,现在让我们一起来预览一下他的最新力作吧。

    第一章 数据——人类建造文明的基石

    内容摘要

    如果我们把资本和机械动能作为大航海时代以来全球近代化的推动力的话,那么数据将成为下一次技术革命和社会变革的核心动力。

    既然数据那么重要,先来区分两个概念——信息和数据。

    信息是关于世界、人和事的描述,它比数据来得抽象,而数据虽然最大的作用在于承载信息,但是并非所有的数据都承载了有意义的信息。

    数据中隐藏的信息和知识是客观存在的,但是只有具有相关领域专业知识的人才能将它们挖掘出来。对数据和信息进行处理后,人类就可以获得知识。知识比信息更高一个层次,也更加抽象,它具有系统性的特征。

    古埃及人观察天象开创了天文学,美索不达米亚平原的苏美尔人利用天文观测数据建立起我们今天所说的数学模型,利用这些模型他们能够计算出月亮和五大行星的运行周期并预测日食和月食,毕达哥拉斯、阿基米德、托勒密、哥白尼和开普勒等等一个个如雷贯耳的名字,他们的成果都是从数据中总结出来的。其实数据的作用自古有之,并非到了今天大数据时代大家才意识到,在某种程度上讲,获得和利用数据的水平反映出了文明的水平。但是过去数据的作用为什么常常被人忽视呢?一方面是由于过去数据量不足,积累大量的数据所需要的时间太长,以至于在较短的时间内它的作用不明显。另一方面是因为数据和所想获得的信息之间的联系通常是间接的,它要通过不同数据之间的相关性才能体现出来。

    相关性是使用数据的钥匙,统计学是点石成金的魔棒,数学模型则是数据驱动方法的基础。

    我们通过将相关联的数据信息量化,借助概率论和统计学建立数学模型,当然模型的选择不是一件容易的事,而找到模型的参数使模型与真实情况非常接近也不是简单的事。由于现在计算机计算能力水平的指数级提升,现在人们正在通过用很多简单不完美的模型凑在一起通过机器学习不断完善去取代一个复杂的模型,这实际上是用计算量和数据量来换取过去漫长的研究时间,这种方法也被称为数据驱动方法。由此可以看出自古以来人类使用数据的标准流程就是:

    数据驱动方法是大数据的基础,也是智能革命的核心。

    第二章 大数据和机器智能

    内容摘要

    在有大数据之前,计算机并不擅长于解决需要人类智能的问题,但是今天这些问题换个思路就可以解决了,其核心是变智能问题为数据问题。由此全世界开始了新的一轮技术革命——智能革命。

    机器智能最初的阶段简单地讲,就是首先了解人类是如何产生智能的,然后让计算机按照人的思路去做,想赋予计算机以思考能力。在这个概念刚被提出的时候,全世界都非常热衷于这个课题的研究,但是经过十几年的研究,科学家们发现人工智能远不是那么回事。到了20世纪70年代,人类开始尝试另辟蹊径,采用数据驱动和超级计算的方法来研究机器智能。在2000年以后,由于互联网特别是后来移动互联网的出现,数据量不仅剧增,而且开始相互关联,当数据量足够大之后量变带来质变,很多智能问题都可以转化成数据处理的问题,计算机开始显得聪明起来。文中通过IBM语音识别和Google机器翻译的例子论证了大数据是如何引发机器智能革命的。

    既然数据如此重要,我们来看看对于大数据的特征吴军老师是如何定义的,他认为传统的3V定义(vast大量、variety多样性和velocity及时性)并不全面准确,他给出的特征如下:

    1.体量大

    这个是最明显的特征,这个特征应该不存在异议。语言识别是最早获得比较多数据的领域,因此数据驱动的方法从这个领域最先产生。

    2.多维度

    多维度比多样性更简明准确。为了获得相关性通常需要多个维度的信息,这样预测的准确性就会大很多。

    3.全面性,或者说完备性

    过去任何基于概率统计的模型都会有小概率事件覆盖不到,但是当数据具备完备性以后,“黑天鹅效应”这种小概率事件的灾难就不会发生了。

    当然并不是说及时性不重要,只是及时性不是大数据所必需的特征,但是有了及时性可以做到很多过去做不到的事情,比如城市的智能交通管理就是一个例子。

    第三章 思维的革命

    内容摘要

    在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。

    要说明大数据思维的重要性,先回顾一下自17世纪以来一直指导我们行动的最重要的一种思维方式——机械思维。

    今天说起机械思维,很多人马上想到死板僵化,但是机械思维曾经是改变人类工作方式的革命性的方法论,它直接导致了人类迄今为止最伟大的工业革命,并且在后来全球工业化的过程中起到了决定性的作用,今天它在很多地方依然能指导我们的行动。机械思维的核心思想可以概括为这样几句话:

    第一,世界变化的规律是确定的;

    第二,因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚。

    第三,这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践。

    但是今天我们面临的复杂情况,已经不是机械时代用几个定律就能讲清楚的了,不确定性是今天社会的常态。不确定性来自两方面,首先是当我们对这个世界的方方面面了解得越来越细致之后,会发现影响世界的变量其实非常多,已经无法通过简单的办法或者公式算出结果,因此我们宁愿采用一些针对随机事件的方法来处理它们,人为地把它们归为不确定的一类。其次,不确定性的第二个因素来自客观世界本身,它是宇宙的一个特性。从微观来看在量子力学中有一个测不准原理,也就是说像电子这样的基本粒子的测量误差是不可能无限小,因为我们测量活动本身影响了被测量的结果。总之,世界上很多事情是难以用确定的公式或者规则来表示的,但是他们并非没有规律可循。

    香农的信息论完全建立在不确定性基础上,用不确定性这种眼光看待世界,再用信息消除不确定性,从而把很多智能型的问题转化成信息处理的问题。其中最大熵原理被广泛地应用于机器学习,这个原理大意是说,当我们要对未知的事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。这和我们过去几百年“大胆假设、小心求证”的方法论完全不同。

    采用信息论的思维方式可以让过去很多难题迎刃而解,我们逐渐从强调因果关系到寻找数据之间的强相关关系。在大数据时代,我们能够得益于一种新的思维方法——从大量的数据中直接找打答案,即使不知道原因。如果我们愿意接受这种找不到原因的答案,那么我们的思维方式已经跳出了机械时代单纯追求因果关系的做法,开始具有大数据思维了。

    当然,大数据思维和原有的机械思维并非完全对立,它更多是对后者的补充。在新的时代,一定需要新的方法论,也一定会产生新的方法论。

    第四章 大数据与商业

    内容摘要

    在未来我们可以看到,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。

    大数据思维不是抽象的,而是有一整套方法让人民能够通过数据寻找相关性,最后解决各种各样的难题。比如南卡罗莱纳州的警察通过智能电表收集上来的用电量情况分析解决毒品种植问题,美国税务部门将企业按照规模、类型和地址进行分类,根据历史数据对行业大致收入和纳税情况进行分析找到偷税漏税的嫌疑者,比如塔吉特百货商店通过大数据分析比一个十几岁女孩的父亲先知道了他的孩子怀孕了。而亚马逊和Netflix公司利用大数据对用户进行个性化推送大幅度提高营业额的例子更是各种介绍大数据书籍中的经典案例。

    当然并不是只有具有互联网基因的公司才可以利用大数据带来商业利益,比如Prada通过在商品的标签里植入RFID芯片,数据分析师根据商品的记录信息可以知道商品销量不好是因为放在店里没有人注意到(根本没拿去试穿),还是因为试穿后不满意。这样公司就可以知道问题出在设计上还是销售环节。风力发电设备公司金风利用互联网将发电机的各种数据全部收集到公司,进行大数据分析,一方面可以全面了解全球的风能分布情况、各地的风力利用情况等宏观信息,还可以了解每台发电机日常运行的每一个细节,不仅能及时发现风机问题并解决,还为技术改进提供了方向。

    每次技术革命都会诞生新的思维方式和商业模式,它们通常遵循一个模式,即:

    新技术+原有产业=新产业

    蒸汽机和电的出现都验证了这个规律。那些有意或者无意接受了这个规律的企业家,常常在新的时代又站到了浪潮之巅。在今天的大数据和机器智能时代,这条规律依然成立。

    对于选择踏上新时代浪潮的公司,并不意味着一定要成立大数据部门,或者聘请数据科学家和机器智能方面的专家。更切合实际的是,付费使用第三方的服务。

    第五章 大数据与智能革命的技术挑战

    内容摘要

    大数据的数据量大、维度多、数据完备等特点,使得它从收集开始,到存储和处理,再到应用,都与过去的数据方法有很大的不同。因此,使用好大数据也需要在技术和工程上采用与过去不同的方法。

    以大数据为核心的智能革命之所以在今天这个时间点爆发,主要是因为很多相关技术已经成熟,当然相关技术也有很多亟待攻克的难题。

    数据的产生:大数据的第一个来源是电脑本身,第二是传感器,第三个是那些过去已经存在的、以非数字化形式存储的信息数字化。还有一个就是今天正飞速增长的UGC(User Generated Content用户产生内容)。

    信息的存储:摩尔定律导致各种存储器的单位容量价格迅速下降,SSD等技术的出现也使存取速度得到大幅度提高。

    传输技术:4G和WiFi的数据传输率使得数据在产生后可以迅速传到服务器上。

    信息的处理:云计算的兴起,实现了大规模并行运算,大数据的处理才成为可能。

    数据收集:传统的数据收集通常先有一个目的,然后开始收集数据,大数据时代在收集数据时常常没有预先设定的目标,而是先把所有能够收集到的数据收集起来,经过分析后,能得出什么结论就是什么结论。此外,传统的数据是通过少量样本数据总结规律性,大数据时代常常以全集作为样本集。

    数据存储的压力和数据表示的难题:目前数据量增长的速度是高过存储设备发展速度的,提高存储效率就变得迫在眉睫。目前节约存储设备的技术一是去除数据冗余和数据压缩,存储同样的信息占用的空间更小;一是防止数据不丢失不损坏。此外设计文件系统和数据存储格式使存储信息能够便于利用和共享也是当前数据处理的技术难题。

    并行计算和实时处理:首先任何一个问题总有一部分计算无法并行,这类计算占比越多,并行处理的效率越低。此外,分开的小任务计算量未必均衡,使用的处理器越多,等待尚未完成计算任务的处理器的时间就越难统一,并行计算的效率就越低。最后对实时性的要求也需要从根本上改变目前的批处理模式,开发新的系统设计和算法。

    数据挖掘:大数据能产生的效益很大程度上取决于使用(和挖掘)数据的水平。通过降噪处理后的信号经过机器学习的过程不断迭代优化模型进而实现期望值最大化,这样得到的结果就越来越接近真实的情况。

    大数据给我们带来了诸多好处,但是对数据安全的考虑,对隐私的保护在当前正变得非常突出和敏感。大众对于隐私的重要性普遍重视不够,用户在实际行动上通常会选择放弃隐私以换取便利性,这是人的天性使然。当用户的隐私暴露之后个人利益就很容易被损害。电商网站根据你过往购物经历的财富记录和你是刺头还是软柿子来选择性发真货还是假货,航空公司发现某个询票者最近必须旅行,而且在过去对票价不是很敏感时,它就会给出比其他人更高的报价。

    第六章 未来智能化产业

    内容摘要

    现有产业+机器智能=新产业,未来的农业、制造业、体育业、医疗、律师,甚至编辑记者行业都将迎来崭新形态,新产业将取代旧产业满足人类的个性化需求,大数据将导致我们整个社会的升级和变迁。

    未来的农业:在引入机器智能之后,农业这个人类最古老的产业将会以崭新的形态出现。以色列作为严重缺水的国家,居然成为了农产品出口大国,有“欧洲厨房”之称。这主要得益于以色列人发明了滴灌技术,由于浇灌系统有大量的传感器,能通过检测植物茎果的直径变化和地下湿度来决定灌溉量,而且该系统可以对用水量和产量的关系进行学习,改进灌溉量。

    未来的体育:2010年,著名风险投资公司凯鹏华盈的合伙人乔.拉格布联合一些硅谷的风险投资家花了4.5亿买下了当时还是鱼腩的金州勇士队,这些硅谷的投资人应用大数据的工程师制定球队的发展战略和比赛战术。根据数据分析的结果,他们认为NBA所追求的打法是低效率甚至是错误的,他们发现最有效的进攻是眼花缭乱的传球和准确的投篮,而不是彰显个人能力的突破和扣篮。几十年来NBA得发展一直在追求制空权,靠篮下肉搏拿下2分,而勇士设计了新打法,三分线外投篮得3分,他们选择科尔做教练也是因为看中了科尔作为乔丹的队友曾是当时NBA同位置投篮命中率最高的人。因此勇士队才得以崛起。

    未来的制造业:在美国,特斯拉已经尝试全部使用机器人来装配汽车,这不仅使得工厂雇用工人的数量大幅度减少,而且还让出厂的汽车性能和质量更稳定。全球最大的OEM制造商富士康也在装备机器人来逐渐取代装配工人。当机器智能逐步渗入到商品制造和销售的各个环节时,不仅工人数量将减少,很多低技能的工人将失业,整个制造业也将会重新洗牌。

    未来的医疗:过去美国专科医生由于培养时间长和成本高,因此医疗收费也高,比如放射科医生过去需要太多的专业技能,而今天智能的模式识别软件通过医学影像的识别和分析,可能比有经验的放射科医生更好地诊断病情。具有了智能的计算机不仅能帮助诊断,还可以进行手术,目前达芬奇手术机器人已经完成了300万例手术。它准确率很高失误的可能性很低,而且随着病例量的增加准确率还在提升,而且它也不会像人一样受情绪的影响。机器智能在解决医疗资源不足的问题上同样有效,IBM开发的沃特森智能系统可以理解自然语言,分析各种数据和医学影像,帮助疾病诊断和医疗信息的管理。目前,如果不引入医师的干预,仅仅靠计算机通过阅读病例、倾听病人的描述和分析化验结果进行疾病诊断,它也能达到中等医生水平。在缺少医生的非洲等地区,有这种“机器医生”总比没有强。而未来可能一种疾病会有不同的药品医治,对于不同的人会有不同的特效药,基因工程的研究甚至让长生不老都有希望?

    未来的律师:大数据对司法领域的一个重大影响在于机器智能会逐渐取代律师做一些案例分析工作,这使得诉讼的成本有可能大幅度下降。今天,一些公司利用自然语言处理和信息检索技术,发明了让计算机阅读和分析法律文献的软件,可以取代很多人工。位于硅谷帕罗奥图市的Blackstone Discovery(黑石发现)公司发明了一种处理法律文件的自然语言处理软件,使得律师的效率可以提高500倍,而打官司的成本可以下降99%,这意味着未来将有相当多的律师(尤其是初级水平的律师)可能失去工作。事实上这件事情在美国已经发生,新毕业的法学院学生找到正式工作的时间比以前长了很多。

    未来的记者和编辑:今天很多媒体的新闻已经有计算机辅助写作。比如IBM发布了去年四季度的财报,计算机就可以写一篇关于IBM业绩的新闻稿。计算机会先“读”一遍该公司财报的内容,然后从财报中读出重要的信息并套用根据以前很多报纸上多年积累的财经类的文章,训练出的各类财经文章的模板,就合成了一篇文章,当然最后在发表前多少还要经过人工的一些润色处理。计算机写作大大提高了新闻行业的效率,但是同时也让记者和编辑这类工作正在萎缩。或许再过若干年,我们在编辑部里看到的景象不再是一批伏案工作的编辑,而是一台台计算机,这个行业也就被重新定义了。

    第七章 智能革命和未来社会

    内容摘要

    在历次技术革命中,一个人、一家企业,甚至一个国家,可以选择的道路只有两条:要么加入智能浪潮,成为前2%的人,要么观望徘徊,被淘汰。

    “这是最好的时代,也是最坏的时代”,一方面智能革命无疑将给我们带来一个更美好的社会,它是智能的、精细化的和人性化的。但是另一方面,智能革命也将给我们带来空前的挑战。我们或许会生活在一个没有隐私的环境里,或许会被一些超级权力在无形中控制,甚至很多人因为没有掌握未来生存的技能而找不到工作,财富可能会更加集中在少数人手里。

    当移动互联网、物联网、大数据和机器智能叠加到一起以后,我们将不再有隐私可言。电商假货,机票溢价,私密的图片,银行账户和移动支付密码的泄露,保险公司了解一个人的病史和家族基因会拒保等都会让我们蒙受损失。今天很多人忽视大数据对个人隐私潜在的危险,原因主要有以下三个:

    首先是对这个问题缺乏认识,他们并不知道大数据的威力,不知道多维度的信息凑到一起能够得到一个人完整的画像。

    其次是低估了机器智能的力量。很多人认为某个公司有了我的那些杂乱无章的数据,也没功夫和我这个小人物过不去,岂不知在机器智能时代,挖掘个人隐私并不需要人来做,而是由机器完成的。

    最后,也是最重要的原因就是很多人一厢情愿地把个人隐私寄托在数据拥有者的善意上。虽然目前为止,Facebook、腾讯和阿里巴巴这些实际上已经掌握了用户隐私的公司似乎还靠得住,但是掌握了大量用户数据的公司远不止这几家。当掌握大量用户数据的公司和用户利益发生冲突时,前者会有意无意地最大化自己的利益,而牺牲掉用户的利益。

    除了丧失隐私以为,机器还会抢掉人的饭碗,每一次重大的技术革命都需要很长的时间来消除它所带来的负面影响。技术革命会使得很多产业消失,或者产业从业人口大量减少,释放出来的劳动力需要寻找出路。这个时间有多长呢?事实证明至少要一代人以上,因为那些被淘汰的产业的从业人员能够进入新行业的其实非常少,消化这些劳动力主要靠的是等待他们逐渐退出劳务市场。智能革命将要走的路也将和历次技术革命有很多相似之处,智能革命对社会的冲击甚至有可能超过过去几次技术革命。

    首先,信息革命本身带来的影响还没有消化完。全球信息化带来的效率已经使得很多人无事可做,很少人制造出来的东西就足够全球人口消费。

    其次,今天的世界和200年前已经不同了,消化掉技术革命的影响要比工业革命时难得多,全世界已经没有空白的市场可以开拓了。

    最后,智能革命所要替代的是人类最值得自豪的部门——大脑,这将剥夺人类最后的尊严和自豪感——机器不能思考。

    那么人类会被机器控制吗?未来依然会是人的时代,机器在完成任务时甚至不知道自己在做什么。比如Google的AlphaGo其实并不知道自己是在下棋。但是制造智能机器的人就不同了,他们可能只占人口的不到2%甚至更少,却在某种程度上控制着世界。

    这绝不是危言耸听,实际上今天已经发生。大家不妨想一下每天有多少时间挂在微信上,有多少商品是从电商渠道购买的,有多少次出行是靠网约车。这些公司没改变产品的形态,亿万用户的生活却被它们所左右。更重要的是这些公司完全掌握了我们衣食住行的生活细节,它们可能比我们身边的任何人甚至我们自己更了解我们,既然做到了对我们如此精确的把控,它们挣我们的钱便是不言而喻的事情。

    在每一次重大的技术革命开始的时候,真正勇敢地投身到技术革命大潮中的人毕竟是少数,受益者更少,大部分人则会犹豫和观望。在智能革命到来之际,每一个人也有两个选择,要么加入到这一次浪潮中,要么观望徘徊,最后被淘汰。当然,大多数人的观望、犹豫和徘徊,给了2%的人以机会,使得愿意吃螃蟹的人在奋斗的道路上少了很多竞争对手。正是因为知道自己不加入进来就会被淘汰,马斯克和盖茨一方面对机器智能的发展非常担心,另一方面却选择加入到机器智能的大潮中。

    欢迎关注个人微信公众号:PMfelix,阅读更多我的作品,期待和你的交流

    相关文章

      网友评论

          本文标题:智能时代——大数据与机器智能重新定义未来

          本文链接:https://www.haomeiwen.com/subject/yawlpttx.html