迎接智能时代

作者: Einstellung | 来源:发表于2017-12-02 23:45 被阅读71次

    ——1——

    前言

            我曾经参加过一起成电下午茶,会上我问电工院的老师一个问题:“如何保证自己所从事的行业永远不会沦为夕阳产业,如何确保自己所学的知识和技能永远都有用武之地呢?很有可能我埋头奋斗十几年,一个新的技术产生,让我多年的努力变得毫无意义。”他说,“这没有什么好的办法,你说的也很现实。唯一能做的就是始终关注各个行业最新的发展动态,你要能够判断的出一项新的技术是否会对其他产业造成影响,要及时见风使舵。”

            几年前,如日中天的诺基亚现在已经销声匿迹了。现在谁又会记得曾经满大街的柯达胶卷冲洗店。在父母买DVD的时候,我从来没有想过,几年后这个东西只能在家里吃灰。在我哥哥有一个MP3之后,我从来没有想过,短短几年,即使是20块钱来卖也没人要。科技革命在不停地塑造着生活的方方面面,每每想到这里我都感觉自己如临深渊,如履薄冰。担心有一天自己会赶不上时代的浪潮而被社会所抛弃。

            英国作家狄更斯在他的著作《双城记》中曾说道:这是最好的时代,这是最坏的时代。书中深刻反映的工业革命对整个社会产生的深远影响,如今又何尝不是呢?当私家车主只需要一个软件就可以和出租车司机抢单的时候,每年要交好几万份子钱的出租车司机会怎么想。当ofo和摩拜单车争相抢夺最后一公里的时候,有谁会关注从此再也拉不到活的电动三轮车。我们站在上帝视角去回顾整个工业革命的历史的时候,会由衷的赞美它的伟大,它让我们过上了如此富裕的生活,即是古代国王也不见得比我们现在过得更奢侈。然而这短短三百年的历史,却有无数的血汗工厂,英国宪章运动,法国里昂工人起义,德国西里西亚工人起义,甚至马克思主义都在这个时间段内诞生。每一项新的重大发明的诞生,最先惠及的永远都先是一小撮人,更多的人会因此失业,虽然这个技术的确提高了工作效率。就如同随着汽车工厂自动化程度的提高,不再需要原先的流水线的工人,他们不再年富力强,又该怎么办呢?

           著名历史学家尤瓦尔·赫拉利在他的《人类简史》中说过:历史从无正义。现代医药卫生和全民教育之所以普及只是为了更好的为工业化服务。没有专业的素养和健康的身体就没有办法成为合格的产业工人。要知道英国十八世纪还大量雇佣童工,十九世纪却实现了义务教育。这绝对是不是资本家发了善心,而是社会需要更多高水平的工人。

            我说了这么多,想要表达的只有一个意思,我们每个人都身处在大数据和人工智能时代。未来已至,无处可逃。大数据和人工智能并不是只是存在于微信科普公众号和科研论文中,他将会存在我们生活的方方面面,而且会越来越多的改变,从衣食住行到工作学习等等。与其被动接受,不如主动改变,这种改变在我看来,应当先从思维观念开始。

    ——2——

    数据驱动方法:使粗糙的模型也可以变得精致

            要建立数学模型就要解决两个问题,首先是采用什么样的模型,其次是模型的参数是多少。模型的选择不是一件容易的事通常简单的模型未必和真实情况相匹配,一个典型的例子就是,无论支持地心 说的托勒密,还是提出日心说 的哥白尼,都假定行星运动轨 迹的基本模型是最简单的 圆,而不是更准确的椭圆。由 此可见,如果一开始模型选得不好,那么以后修修补补 就很困难。因此,在过去,无 论在理论上还是工程上,大 家都把主要的精力放在寻找 模型上。

            有了模型之后,第二步就是要找到模型的参数,以便让模 型至少和以前观察到的数据 相吻合。 这一点在过去的被 重视程度远不如找模型。但是 今天它又有了一个比较时髦 而高深的词一一机器学习。鉴于完美的模型未必存在,即 使存在,找到它也非常不容易,而且费时间,因此就有 人考虑是否能通过用很多简单 不完美的模型凑在一起,起到 完美模型的效果呢?如今这个答案是肯定的,从理论上讲、只要找到足够多的具有代表性的样本数据, 就可以运用数学找到一个模型或者一组模型的组合,使得 它和真实情况非常接近。

           只要数据量足够,就可以用若干个 简单的模型取代一个复杂的 模型。这种方法被称为数据 驱动方法,因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据。虽然这种数据驱动方法在数据量不足时找到的一组模型可能和真实的模型存在一定的偏差.但是在误差允许的范围内,单从结果上看和精确的模型是等效的。

            数据驱动方法最大的优势在于于,它可以在最大程度上得益于计算机技术的进步。尽管数据驱动方法在一开始数据 量不足、计算能力不够时,可 能显得有些粗糙,但是随着 时间的推移,摩尔定律保证 了计算能力和数据量以一个指 数级增长的速度递增,数据驱动方法可以非常准确。相 比之下,很多其他方法的改进 需要靠理论的突破,因此改进起来周期非常长。在过的30年里,计算机变得越来越聪明,这并非是因为我们对 特定问题的认识有了多大的提高,而是因为,在很大程度上我们靠的是数据量的增加。

            在过去,只有人类才有用语音交流的能力,尽管人类从1946年开始就努力让计算机 有听得懂人的语音的智能,但 是一直不成功。20世纪70年 代,科学家们采用数据驱动方法,找到了解决这个问题的途径,并且不断地改进方法。但是语音识别准确率的提高,主要是靠20世纪90年代以后数据的大量积累。从这个研究领域大家开始看到了数据的重要性。类似地,图像识别也取得了根本性的 突破。在2000年以后,由于互联网特 别是后来移动互联网的出 现,数据量不仅剧增,而且 开始相互关联,出现了大数据 的概念。科学家和工程师们发现,采用大数据的方法能 够使计算机的智能水平产生 飞跃,这样在很多领域计算机 将获得比人类智能更高的智 能。可以说我们正在经历一 场由大数据带来的技术革命,其最典型的特征就是计算机 智能水平的提高,因此我们 不妨把这场革命称为智能革 命。当计算机的智能水平赶上甚至超过人类时,我们的社会就要发生天翻地覆的变化,这才是大数据的可怕之处。

            计算机下棋和回答问题,体现出大数据对机器智能的决定 作用。比如Google自动驾驶汽车、能够诊断癌症或者为报纸写文章的 计算机,它们不需要像科幻 电影里的机器人那样长着人 形,但是它们都在某个方面 具有超过人类的智能。在这 些机器人的背后,是数据中心 强大的服务器集群,而从方法上讲,它们获得智能的方法 不是和我们人一样靠推理, 而更多的是利用大数据,从数 据中学习获得信息和知识。 如今,这一场由大数据引发 的改变世界的革命已经悄然发生。

            在无法提供因果关系时数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性。而数据之间的相关性在某种程度上可以取代原来的因果关系。帮助我们得到我们想知道的答案,这便是大数据的思维核心。

           为了说明相关关系,我们有必要先来谈谈因果关系以及对人类的广泛影响。

    ——3——

    机械思维(因果关系):引发了工业革命

            如果我们要想在“道”的 层面了解大数据,了解一种 新的思维方式的重要性,而不仅仅是将自己的追求停留在“术”的层面,那么我们就 需要了解人类认识世界方法 的演变和发展过程。今天说起机械思维、很多人马上想到的是死板、僵化,觉 得非常落伍,甚至“机械”本身都算不上什么好词。但是 在两个世纪之前,这可是一 个时髦的词,就如同今天我们说互联网思维、大数据思维很时髦一样。可以毫不夸张 地汫,在过去的三个多世纪 里,机械思维可以算得上是人类总结出的最重要的思维方 式,也是现代文明的基础。今天,很多人的行为方式和 思维方式其实依然没有摆脱机 械思维,尽管他们嘴上谈论的 是更时髦的概念。

           机械思维的形成可以追溯至古希腊。欧洲之所以能够在科 学上领先于世界其他地方, 在很大程度上是依靠从古希腊建立起来的思辨的思想和逻辑推理的能力,依靠它们可 以从实践中总结出最基本的 公理,然后通过因果逻辑构起整个科学的大厦。欧几里得在他的著作《几何原本》中就用了5条不证自明的公理,推导出了整个几何学体系。而牛顿用了经典的牛顿三大定律,推演出了整个经典物理学体系。

            后来人们将牛顿的方法论概括为机械思维,其核心思想可以概括成这样几句话:第一,世界变化的规律是确定 的。第二,因为有确定性做保障, 因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚。第三,这些规律应该是放之四海而皆准的,可以应用到各 种未知领域指导实践,这种认识是在牛顿之后才有的。这些其实是机械思维中积极的本质。

            机械思维对世界的影响力并没有随着工业革命的结束而结 束,从牛顿时代开始接下来 的3个世纪里,人类越来越习惯于用机械的方式描述一切, 机械思维渗透到社会生活的方方面面,人们相信能够用机械解决一切问题,包括很多过去无法解决的问题。瑞士的能工巧匠们将机械的威 力发挥到了极致,他们制造的那些精致而昂贵的机械表 不仅可以指示时间,而且可 以准确地预测上百年的太阳历、阴历和主要星辰的运 动,甚至可以通过机械振动演奏音乐。

            不仅时间、音乐与机械挂上了钩,计算也可以用机械来实 现。在19世纪中叶,发明家 巴贝奇用机械实现了复杂的差 分计算,70年后的20世纪30年代,德国计算机科学家和机械师楚泽则用机械实现了制造人类第一台可编程的计算机。在当时人们的眼里、世界上任 何事情都是可以用机械来实 现的,只是时间早晚而已。机械思维更广泛的影响力是作 为一种准则指导人们的行 为、其核心思想可以概括成确定性或者可预测性和因果关系。牛顿可以把所有天体运动的规律用几个定律讲清楚、并且应用到任何场合都是正确的,这就是确定性。类似地、当我们给物体施加一个外力时,它就获得一个加速度,而加速度的大小取决于外力和物体本身的质量、这是 一种因果关系。没有这些确定性和因果关系,我们就无 法认识世界。如同我们今天在谈论大数据思维和互联网思维时无意中会带有一种优越感。一样,在19世纪时,机械思维是一个非常时髦的词汇,人 们喜欢用这个词汇表示自己 对近代科技的了解和所具有的 理性精神。在客观上,机械 思维也确实促进了世界近代化,乃至现代化的过程一一它导致了很多重大的发明和发 现,比如爱因斯坦的相对论的提出,也促进了一些现代科学的诞生,比如现代医药学。

    ——4——

    机械思维的局限性

            机械思维的局限性更多来源于它否认不确定性和不 可知性。爱因斯坦有句名言 一一“上帝不掷色子”,这是他在和量子力学的发明人波尔 等人争论时讲的话。今天我们知道,在这场争论中,波 尔等人是正确的,爱因斯坦错了,上帝也掷色子。

            从牛顿开始,人类社会的进步在很大程度上得益于机械思维,但是到了信息时代,它的局限性也越来越明显。首先,并非所有的规律都可以用简单的原理描述;其次,像过去那样找到因果关系已经变得非常困难,因为简单的因果关系规律性都被发现了。 另外,随着人类对世界认识得越来越清楚,人们发现世界本身存在着很大的不确定性,并非如过去想象的那样一切都是可以确定的。因此, 在现代社会里,人们开始考虑在承认不确定性的情况下如何取得科学上的突破,或者把事情做得更好,这也就导致一种新的方法论诞生。

            世界的不确定性来自两方面,首先是当我们对这个世界的方方面面了解得越来越细致 之后,会发现影响世界的变量其实非常多,已经无法通过简单的办法或者公式算出结 果,因此我们宁愿采用一些 针对随机事件的方法来处理它们,人为地把它们归为不确定 的一类。

            我们可以通过下面的例子来了解这种不确定性。如果我们在平整的桌子上掷一次色孑.在色子落到桌子上停稳以 前,我们一般都认为无法知道 到底哪一面朝上,哪一面朝 下。但是其实在色子离开手 的一瞬间,如果能够知道色子 准确的形状和密度分布、出手的力量和旋转的角速度、 空气流动的速度,同时我们的 计算足够精确,其实我们是能 够算出色子的哪个点或者哪 个面接触到桌面的。如果我 们还知道桌面的弹性系数和色予的弹性系数,以及这两种 材质的物理性质等因素,我 们就能够算出这个色子弹起少高、运动的方向等,最终 可以算出它停下来时哪一面朝上。但是,由于这里面很 多细节难以准确测量,比如出 手的速度和力量,因此考虑 了所有的因素后计算出来的 结果也未必正确。在这种情 况下,一般人干脆假定色子每一面朝上的概率都是1/6。

            不确定性的第二个因素来自客观世界本身,它是宇宙的一 个特性。在宏观世界里,行星围绕恒星运动的速度和位置 是可以计算得很准确的,从而 可以画出它的运动轨迹。但 是在微观世界里,电子在围绕原子核做高速运动时,我们 不可能同时准确地测定出它 在某~时刻的位置和运动速 度,当然也就不能描绘出它 的运动轨迹了。这并非我们的 仪器不够准确、而是因为这是原子本身的特性。在量子力学中有一个测不准原理,也就是说,像电子这样的基本粒子的位置的测量误差和动 量的测量误差的乘积不可能 无限小。这与机械思维所认定 的世界的确定性是相违背 的。为什么会有这样的现象存在呢?因为我们测量活动本 身影响了被测量的结果。对 于股市上的操作也类似,当 有人按照某个理论买或茬卖 股票时,其实给股市带来了一 个相反的推动力、这导致股市在微观上的走向和理论预 测的反方向。

    ——5——

    信息论:将不确定性问题转化为数据问题

           信息论中有很多很多的概念和原理。机器学习中很多概念就出自信息论。信息论在信息时代具有十分重要的作用,这里就简单介绍一下。

           香农在信息论中借用了热力学里熵的概念,他用熵来描述一个信息系统的不确定性。接下来香农指出,信息量与不确定性有关:假如我们需要搞清楚一件非常不确定的事,或是我们无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解、那么不需要太多的信息就能把它搞清楚。所以,从这个角度来看,可以认为、信息量的度量就等于不 确定性的多少,这样香农就把熵和信息量联系起来了。 他还指出要想消除系统内的不确定性,就要引入信息。

            与机械思维是建立在一种确定性的基础上所截然不同的是,信息论完全是建立在不确定性基础上,而要想消除这种不确定性,就要引入信息。至于要引入多少信息,则要看系统中的不确定性有多大。这 种思路成为信息时代做事情的根本方法。

            在信息时代的方法论:谁掌握了信息,谁就能够获取财富,这就如同在工业时代,谁掌握了资本谁就能获取财富一样。当然,用不确定性这种眼光看侍世界,再用信息消除不确 定性,不仅能够赚钱,而且能够把很多智能型的问题转化成信息处理的问题,具体说, 就是利用信息来消除不确定性的问题。比如下象棋,每一种情况都有几种可能,却难以决定最终的选择,这就是不确定性的表现。再比如要识别一个人脸的图像,实际上可以看成是从有限种可能性中挑 出一种,因为全世界的人数是有限的、这也就把识别问题变成了消除不确定性的问题。人类在机器智能领域的成就,其实就是不断地把各种 智能问题转化成消除不确定 性的问题,然后再找到能够 消除相应不确定性的信息, 如此而已。

           有了信息论这样一个工具和方法论,我们便很容易认清大数据的本质了。首先我们必 须承认世界的不确定性,这 样我们就不会采用确定性的思 维方式去面对一个不确定性 的世界。当我们了解到信息 或者说数据能够消除不确定性之后,便能理解为什么大数据的出现能够解决那些智能 的问题,因为很多智能问题从根本上来讲无非是消除不确定性的问题。

           大数据的科学基础是信息论,它的本质就是利 用信息消除不确定性。虽然人类使用信息由来已久,但是到了大数据时代,量变带来质变,以至于人们忽然发现 采用信息论的思维方式可让过去很多难题迎刃而解。

            我们以谷歌自动驾驶汽车为例:

            谷歌自动驾驶汽车项目其实是他已经成熟的街景l项目的延伸。对Google自动l驾驶汽车的各种报道通常都会忽视一个事实,那就是它只能去Google “扫过街”的地方。对于这些已经去过的地方,Google都收集到了非常完备的信息,比如周围的各种目标的形状大小、颜色,每条街道的宽窄、限速,不同l时间的交通情况、人流密度l等,Google都事先处理好以备未来使用。因此,自动加到一处,对周围的环境变化它可以迅题据调出来作为参 考。而过去那些研究所里研 制的自动驾驶汽车使用的是人的思维方式,每到一处都要临时识别目标、这样即使所 搭载的计算机再快,也来不及进行太深入的计算,因此无法做出准确判断。其次,自动驾驶汽车上装有十 多个传感器,每秒钟进行几 十次的各种扫描,这一方面超过了人所能做到的“眼观六 路、耳听八方”,同时大量的 数据要在短时间内处理完、计算的压力是非常大的。Google的自动驾驶汽车是通过移动互联网与Google的超级 数据中心相连的,虽然它本 身携带的电脑不过是一台简单 的服务器,但是整体的数据量和计算能力要远远超出过去 其他公司和大学那些自动驾 驶汽车上面所携带的计算机。再次,我们人开车,常常是根据周围情况临时做出判断, 遇到死胡同,转弯掉头再找其他的道路。Google拥有一个最好的全球地图数据,它的自动驾驶汽车不仅行驶的路 线大部分是事先规划好的,而且对各地的路况以及不同交通状况下车辆行驶的模式有准确的了解,因此它可以规避很多不必要的麻烦。当然, 如果开到了事先扫街汽车没有去过的地方,自动驾驶汽车常常会无计可施。在2016年年初,Google的无人驾驶汽车在道路上安全行驶 了200多万英里之后,终于发生了第一起负主动责任的交通事故。出事的原因与其说是它的判断出了问题、不如说是数据的缺失。出事的那辆汽车在道路上检测到一个5公斤大小的小沙袋、那种沙袋一般是家庭用在院落的水沟旁防止洪水的。一般司机遇到这 种情况就直接压过去了,但是Google自动驾驶汽车没见过这 个东西,因此试图换道绕过去、而那辆车并没有方向盘,乘客也无法人为控制方向,结果出了一次小事故。

    ——6——

    用相关关系代替因果关系

            这一部分,我们先从青霉素的发明讲起。青霉素的发明就是依靠因果推理的方式。

            我们都知道中学生物课本上介绍过弗莱明偶然之间发现了青霉素,可以杀死其他细菌。可是从发现青霉素到实现量产,这中间大约经过了半个世纪长的时间。弗莱明发现青霉素之后很长一段时间之后。牛津大学科学家钱恩和亚伯拉罕才搞清楚青霉素中的物质青霉烷原来可以破坏细菌的细胞壁从而达到杀死细菌的作用。而这之后又过了很多年,霍奇才搞清楚青霉烷的分子结构,这才为青霉素的大规模合成提供了可能。

            整个青霉素和其他抗生素的发明过程实际上就是人类不断分析原因,然后寻找答案的过程。其他药物研制过程也大多与此类似,大约需要10年以上的时间以及10亿美元的科研经费。 不过,目前我们有了新的思路。

            美国总共只有5000多种处方药,人类会得的疾病大约有一万种。 如果将每一种药和每一种疾病进行配对,就会发现一些意外的惊喜。比如斯坦福大学医学院发现,原来用于治疗心脏病的某种药物对治疗某种胃病特别有效。当然,为了证实这一点需要做相应的临床试验,但是这样找到治胃病的药只需要花费3年时间,成本也只有1亿美元。这 种方法,实际上依靠的并非因果关系,而是一种强关联关系系、即A药对B病有效。至于为什么有效,接下来3年的研究工作实际上就是在反过来寻找原因。这种先有结果再 反推原因的做法、和过去通过因果关系推导出结果的做法截 然相反。无疑,这样的做法会比较快,当然,前提是有足够多的数据支持。

            我们在前面提到,能通过因果关系找到答案,根据因果关系知道原因固然好,但是对于复杂的问题,其难度非常大,除了靠物质条件、人们的努力,还要靠运气。牛顿和爱因斯坦都是运气很好的 人。遗憾的是,大部分时候我们并没有灵感和运气,因此很多问题得不到解决。在大数据时代,我们能够得益于一 种新的思维方法一一从大量的数据中直接找到答案,即使不知道原因。这一方面给了我们一个找捷径的方法,同时我们不会因为缺乏运气而 被问题难倒;另一方面,这种找不出原因的答案我们是否敢 接受呢?如果我们愿意接 受,那么我们的思维方式已 经跳出了机械时代单纯追求因果关系的做法,开始具有大数据思维了。

           很多时候,落后与先进的差距、不是购买一些机器或者引进一些技术就能够弥补 的,落后最可怕的地方是思维方式的落后。西方在近代走 在了世界前列,很大程度上靠的是思维方式全面领先。机械思维曾经是改变了人类工作方式的革命性的方法论, 并且在工业革命和后来全球 工业化的过程中起到了决定性的作用,今天它在很多地方 依然能指导我们的行动。如果我们能够找到确定性或 者可预测性和因果关系,这依然是最好的结果。但是, 今天我们面临的复杂情况, 已经不是机械时代用几个定律 就能讲清楚的了,不确定性, 或者说难以找到确定性,是 今天社会的常态。在无法确确定时,数据为我们提供新的方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助们得到我们想知道的答,这便是大数据思维的核大数据思维和原有机械思维并非完全对立,它更多是对后者的补充。在新的时, 在新的时代一定需要新的方法论,一定会产生新的方法论。

    ——7——

    后记

            迎接智能时代,首先要做到的就是从思维观念上作出改变。不断培养自己数据主义的思维方式。

           如果我们不可避免的要被大数据和机器智能控制,与其抱怨,不如干脆加入他们的行列。

    相关文章

      网友评论

        本文标题:迎接智能时代

        本文链接:https://www.haomeiwen.com/subject/ztxobxtx.html