身处的这个大时代

作者: AmyAmyAmy | 来源:发表于2019-03-10 19:14 被阅读12次

    《智能时代》读书笔记

        大数据与人工智能是如今热的不能再热的词了,朋友圈每天都有人在刷大数据,在提示我们大数据的能量及人工智能的威力,或许不是危言耸听,在多年以后,我们现在所从事的工作或许就不存在了,现在的我们该以怎样的态度看大数据及人工智能,又会有怎样的思考跟启发?吴军的《智能时代 》是一本理解大数据和人工智能的好书,读完形成了一篇笔记,有对作者观点的进一步理解(get多少赚多少),也有自己的思考启发。

        作者从科学技术发展的角度看人类社会的发展,每一次科技革命都是一次巨大的社会进度,从根本说是人的思维方式、认知世界的方法论在进步。每一次科技革命对社会的影响可以用“旧产业+新技术=新产业”表达或理解。

        继两次工业革命及信息革命(我们还在消化信息革命带来的极大的生产力的提升)后,大数据是人类社会面临的又一次科技革命。作者从数据的本质,从人类认知世界的思维及方法论层面带读者认识大数据和机器智能。

        机械思维(自牛顿起)曾经是改变人们工作方式的革命性的方法论,强调确定性和因果关系(我们解决问题,从问题可能产生的原因入手提出问题,然后是分析问题,论证架设,确定原因),找到事物的真正原因,或者根据确定性预测事物的将来,机械思维(因果关系)带给人类社会非常大的自信。

        但是随着人的活动范围的扩大,认知领域的发展,会发现世界的更多复杂性和不确定性,在没办法完全用确定性的公式解释的情况下,数据提供了一种解决问题的新途径,数据里包含的信息可以消除不确定性(V1数据量大,数据量越大消除越多的不确定性),数据之间的相关性在一定程度上可以取代因果关系(V2数据的多维度,可以提供互信息,进行交互验证),数据的全量预先掌握下所有可能的情况(V3数据的完备性,训练模型的集合和使用模型的集合是同一个。这个V3来解决智能问题),这就是数据驱动方法。

      机器智能(作者更愿意将人工智能叫机器智能)本质是将智能问题转换为数据问题。作者“透漏”了Google自动驾驶车只能去Googel街景扫过的街,AlphaGo的智能是通过对几十万盘高手对弈的数据训练出来的。

        大数据以及机器智能将对人类社会的各个产业进行重新塑造,从而使旧有产业产生新的形态。每一次的技术革命中,小到个人、大到国家,可以选择的路只有两条,加入浪潮成为前2%的人,要么观望直至被淘汰。

    一、大数据的本质是什么?

    1、认识现象、数据、信息、知识的基本概念

        现象是客观存在的世界。

        数据的范畴是随着文明的进展不断变化的,在计算机出现以前,数据=数字,在今天,文字、语音、图片、视频都是数据,并且以这些基础数据元素承载着信息科技产业里最重要的数据——信件、电话、邮件、照片、电视网页以及以及社交产品里用户产生的内容,面向未来,数据的范围还在扩大,我们每天的行为活动、社会关系等也是数据,数据无处不在。(结合信息的定义来看的话,数据的范围被放大了,一定程度上有信息的成分,比如信件就是用来传达信息的。)

        信息是对世界、人或事的描述,比数据抽象,数据是信息的承载体,信息可以是人创造的,也可以是天然存在的事实(作者举例地球的面积和质量)。信息中包括着有用数据和无用数据,剔除无用数据,获取有用数据,并发现其背后的信息的能力是不断增强的。

        知识比信息更抽象,更系统,通过信息总结出知识,它是人的认知的又一升级。从数据到知识的过程,是通过观察形成数据,分析数据承载的信息,建立模型并不断进行数据验证的过程。为了说明数据到知识的过程,作者用历法的发展及天文学的发展过程来说明数据到知识的形成过程。(知识是人认识世界的一般性结论,在数学家眼里,模型就是知识,或者说找到模型,就完成从数据到知识的过程。在这个过程里,知识是随着人的认知不断升级的,所以,对待知识的态度是认识但不迷信。形成知识的过程是不断追问本质,在教育孩子的过程中,通过提问引导思考,避免粗暴传递自以为是的知识)

        认识了现象、数据、信息、知识的基本概念之后,如何使用数据?

    2、使用数据的相关性获取信息

        相关性是使用数据(间接获取信息) 的有效手段,尤其是在无法直接获取信息时,如果发现两类数据之间的极大相关,可以获得相对准确的认识。

        认知世界,很多时候,我们无法直接获得对事物的准确认识(一手信息),但是可以通过相关性间接获取相对准确的信息(通过几个事件相互佐证的信息,或者从一件事严密推理出其他信息)。这种相关性,一般也是先假设或者想象吧(科学有时就是源于想象) 然后再进行验证。

    3、统计学,点石成金的魔棒

        统计学是建立在概率论基础上的,通过收集数据、分析数据、找到数据内在的关联性和规律性的学科。统计学对输入的数据有量和质的要求,要得到准确的结果,样本的数量要尽量大,样本要具有代表性。如果这两个条件不满足,统计结果常常出错。

        我理解大数据可以看着统计学的延伸,或者可以认为大数据是统计学在量和质上的变化。

        统计学是找数据内在规律,那么数学模型则是要建立起数据之间的确定性的关系。

    4、数学模型是数据驱动方法的基础

        理论上只要有足够多的具有代表性的样本数据,就可以运用数学找到一个或者多个模型,科学家们就是这么做的。但是他们形成知识有两种情况,一是建立起严格的复杂的精确模型,用已有少量数据对模型进行验证。二是先有大量的数据,然后用多个简单模型去契合数据,并在数据使用过程中不断优化模型,后者就是数据驱动方法。数据驱动方法是大数据的基础也是机器智能的核心,还是一种新的思维方式。AlphaGo就是在总结了几十万棋盘的数据后,得到了统计模型,这是典型的数据驱动方法的应用。

        数据驱动方法是机器智能的核心,机器智能是怎么来的?

    5、机器智能比人工智能的叫法更准确

        传统的人工智能是鸟飞派(也叫人工智能1.0),特点是让机器模仿人,比如利用仿生学模拟人的动作、语言学习上让机器学习语法、让机器像人一样思考。

        机器智能(现代的方法,比如数据驱动、知识发现以及机器学习等)的目标是让机器解决人的问题,而不是非得让机器采用像人一样的办法(或者像人一样思考)解决问题。判断机器是否具备有智能,科学家还提出了几种判断方法。

        机器智能发展到现在经历了传统的人工智能1.0、统计+数据、数据驱动(大数据)三个阶段,第二个阶段是转折点,给出了解决问题的新的思路。作者通过讲机器智能的发展史呈现科学家在这一方向上的探究过程以及这一过程中的方法的改变。

        往往是不同领域的科学家会对同一个问题给出不同的解题思路,从而使得问题的解决有多种可能。)机器智能的发展史体现出来的是解决问题的两种不同的思路反映出来的两种方案,目标是让机器解决问题,而不是必须用人的方法去解决问题。(这在做任何事都相通的,目标是解决问题,而不是必须采用什么办法才能解决问题。

        大数据对机器智能具有非常大的意义,或者说机器智能就是将智能问题转变成了数据问题。这其中的大数据有几个典型的特征,体量大、多维性和完备性(不一定实时性 ),多维性及完备性尤其是后者才使得大数据推动机器智能的发展(机器存储的足够多了形成了经验模型,那么再下一个输入,就知道如何从已知的信息找答案了)

        大数据使得人工智能发展到机器智能,是方法论或者思维方式上根本性的变化。那么数据思维到底是个啥思维?

    6、从人类认知世界的方法的发展过程看大数据的思维

        从方法论、思维方式层面看大数据。

        人类世界的发展从来都是伴随着科技革命的发展的,

        在人类社会发展的不同阶段,都形成了不同的世界观,通过人类世界观的形成,来发现影响人类对世界认知的原因(科学家及他们的成就,成就背后是科学的方法论),今天的方法论(从因果关系到相关关系)正在发生变化,那么人的新世界观该形成了(大数据思维)。

    (1)人类世界观是不断发展的,世界观形成的背后是科学家的成就对认识世界的影响

        人类对世界的认知路径是不确定性、确定性、不确定性。第一个不确定性是人对社会无法认知,不能解释所看到的现象,只能归结为神的作用。确定性是基于机械论的思维,是既能解释已经存在的又能预测未来的,这种确定性带给人类的是自信(由牛顿起,由于机械论的思维,人类能预测星球的轨迹,并发现了最后一颗行星)。第二个不确定性是人类发现了世界上不确定性的客观存在(比如熵),并且发现了对不确定性认知的途径(获得更多信息消除不确定性),这种不确定性给人类带来的是新的认知升级。

    (2)伟大科学家的成就背后,是他们对方法论的认知升级

        在人类社会发展的过程中,有一些历史性的拐点,包括欧几里得的几何学、托勒密的地心说、牛顿的自然哲学的数学原理、信息论等,拐点上的科学家他们取得的成就,有幸运(这种幸运或许想象力),重要的是他们善用方法论解决问题,同时发展了方法论。

        (欧几里得和)托勒密的方法论核心思想有两点:首先,需要有一个简单的元模型,这个模型可能是假设出来的,然后再用这个元模型构建复杂的模型;其次,整个模型要和历史数据相吻合。

        牛顿机械论核心思想是:第一,世界变化的规律是确定的;第二点,因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚;第三点,这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践。

        牛顿的成就导致了第一次工业革命,极大地提升了生产力,从工业革命的发起地到全球,造成了物质的极大丰富,这个极大丰富的过程伴随了英国的殖民崛起,直到第二次工业革命。

        信息时代的方法论是香农的信息论(熵),消除不确定性,需要获得信息。谁掌握了信息(数据是信息的承载),谁就能够获得财富。

    (3)信息时代的方法论是熵-不确定性,大数据是通过相关性消除不确定性

        大数据的本质是(通过相关性)消除不确定性。因果关系或者相关关系都是解决问题的手段,只是以前都在用确定的因果关系解决问题,数据积累到一定程度,发现可以用相关性解决问题,从结果看甚至更有效(虽然不一定完全掌握有效的原因),数据之间的相关性(大数据思维)在某种程度上可以取代原来的因果关系(机械论思维),帮助人类得到想要的答案,这就是大数据思维了。在确定性情况下能知道因果关系更好,如果不能,大数据给我们提供了新的解决问题的方法,所以说大数据思维是对机械思维的补充。

      机械论是直接的求甚解。大数据有点像是先不求甚解,再求甚解。

    二、大数据对商业的影响

        大数据思维将难题变成数据问题,给问题解决带来新办法。怎样应用大数据解决问题?用大数据的数据相关性总结一般性规律,然后将规律与单case行对比,发现“异类 ”,实现精准定位。

        大数据思维不仅用在解决问题上,在商业上的应用会产生巨大的商业利好,电商会通过多维数据之间的相关性完成对分类人群的画像(比如说准备当妈妈的人群,她们在每个阶段的购物清单的相似性),然后再根据个体的消费行为进行分类定位(如果个体符合这个群体的画像,就可以进行人群定位,然后进行相关产品推荐),从而进行精准营销。

        这个过程体现在数据流上,数据从个体流向整体,看宏观性,再从整体流向个体,实现精准定位。大数据思维在商业上应用的影响启发是建立并保持与用户之间的在线连接(想到王坚的在线),有连接就会有数据,基于数据做分析,从而产生再次销售。通过连接,商业行为由产品销售转变为服务销售,但是这种连接不是靠人而是靠技术,对于toC或者toB的企业都适用。对于传统的行业信息化厂商,是通过销售及售后服务群体(而非产品)与客户建立连接,通过人再去了解产品的使用情况,有人就有很多的主观性,这种靠人的连接而掌握产品使用情况会造成对客户不是真正了解,不是真正的了解,就不可能真正生产出有针对性的懂用户的产品。

        大数据的另一特点是完备性,在一个领域(或者方向上)掌握足够的数据(全集),机器就会知道所有可能发生的情况,再遇到任何一种情况的出现,机器都能从全集中快速找到一个响应措施。这就是Google的机器智能,包括自动驾驶和Alpha Go。Google自动驾驶车只能去Googel扫过的街。AlphaGo的智能是通过对几十万盘高手对弈的数据训练出来的。

        作者总结了历次技术革命对社会的影响都遵循一个规律,新技术+原有产业=新产业,从两次工业革命到信息时代的摩尔定律都是如此,预言大数据对当前社会的作用也会如此。一项新的技术革命对商业的影响:

        1、导致新的商业模式的产生

        2、技术革命导致生产力提升,生产过剩,供大于求,靠产品需求拉动消费的方式不灵了(怎么消耗掉大产能,第一次工业革命的英国是殖民;第二次工业革命时期的美国是西部开发;联想到信息革命时代,一带一路?)。同时消费者对服务的需求越来越高,商业公司从产品销售转型IT服务型公司。

        3、商业模式的创新有继承性。

    三、大数据和智能革命的技术挑战

        大数据为什么发生在今天?作者认为这是技术发展的结果,但是由于大数据的数据量大、多维、完备性等特点,用好大数据也需要在技术和工程上采用不同以往的方法,尤其是思维方式。大数据和机器智能的发展,还会带来新的技术挑战,比如数据安全、隐私保护等。

        人类社会的科学技术的发展不是匀速的,往往在经过很长时间的酝酿之后会出现技术的爆发,作者称之为技术拐点,比如1666年以牛顿的三项巨大科学贡献标志着人类进入科学近代社会;1905年,爱因斯坦开启的科学的近代社会;1965年,摩尔定律提出,人类社会进入信息革命时代。每一个拐点出现之前,都有长时间的平衡,然后是平衡被打破,新的技术革命出现,而这种平衡被打破的时间周期越来越短。(联想到近期听到的关于颠覆式创新的双s曲线,异曲同工)。作者认为当下是大数据技术的拐点,(有幸赶在一个大的拐点上,这个时代的人是幸福的)为什么是今天?其主要原因是所有跟数据相关的条件在这个时间开始成熟。

        1、数据产生。大数据的产生有四个重要来源,电脑(不单指PC机,包括所有数字化设备)、传感器、过去就存在的非数字化产品在今天可以数字化以及互联网。其中增长最快的是传感器和互联网。(又联想到有大牛说移动互联网之后是iot时代)

        2、数据存储。硬件的发展突破大数据量的存储,以及对大数据量存储的读写。

        随着存储量越来越大, 敢想一下,也许若干年后,会出现体积更小但存储量更大的存储设备)

        3、数据传输。互联网、移动互联网的发展,使得数据传输不成问题。

        4、数据处理。大规模的并行计算,用普通的计算机就可以将大数据量的计算效率提高多少倍。

        这些条件的成熟加速了大数据和机器智能的出现,但是要发展,面临技术难题。

        1、数据采集的难题。大数据时代,收集数据时常常没有预先设定的目标,而是先把数据收集起来,经过分析后,能得出什么结论就是什么结论。(这种方式不同于大胆假设、小心求证)并且大数据收集以全集为样本,也就是全量采集。进行数据的全量收集,技术手段还在探索。

        2、大数据的存储和表示方式的难题。大数据的特点造成对存储的挑战不难理解。数据的表示呢,大数据的多维性注定数据各种各样,没办法用一个统一的格式描述,但是还是需要一些标准的格式,以便这些数据能够共享和使用。(世界上的所有数据的格式做字典可能吗?)

        3、并行计算和实时计算的难题。并行计算能够提高计算效率,但是作者给出了数据证明,在一个任务中并行比例达到95%时,最大的加速倍数是20倍,即使再增加处理器,加速倍数也不会再多了。(也就是并行计算有瓶颈?!)

        4、数据挖掘的难题。使用大数据,挖掘是关键。两个重要的步骤,一是数据过滤和整理;然后是机器学习,机器学习是不断寻找最优解的迭代过程,谷歌采用的是神经网络算法,谷歌做的事情是将稳定了多少年的神经网络算法工程化,他的突破在于找到了一种方法,解决了过去的神经网络不能训练大模型的难题,从而实现大数据的复杂模型的机器学习。机器学习的算法研究很专业(看成专业的工具),不可能每家都去造工具,所以一定会集中在某些公司。

        5、数据安全的难题。数据安全有两层含义,一是数据不会丢。二是数据不会被盗。这两层的意思在全世界范围内都存在(联想到最近大热的物联网,安全将是物联网的重灾区),都还在探索,但是作者也给出了用大数据的特点做安全保护(常规的使用流程里如果出现异常的使用流程,安全可能就存在问题了)

    最后

        大数据和人工智能是正在发生的新一代的信息革命,大数据是新技术,更是一种思维方式。大数据和机器智能在商业中已经有很多的应用场景。两年前,我家老二还是二岁时,我手机就曾经收到过电商发来提醒我尿不湿是不是用完了,是否需要重新下单的短信。当时还觉得好玩,现在还有哪个APP不能根据你的浏览爱好推送相关主题呢?每个人都已成为大数据中一份小数据,又都在使用大数据计算结果,我们不知不觉已经生活在数据大时代。在这样的大时代里,愿我们认清趋势、改变思维、掌握方法、落地实践,早日加入浪潮成为前百分之几的人。

    相关文章

      网友评论

        本文标题:身处的这个大时代

        本文链接:https://www.haomeiwen.com/subject/carppqtx.html