这本《数文明》是中国第一位系统研究大数据的权威学者涂子沛所著的第三本力作,前两部《大数据》《数据之巅》都很精彩。
“数明”的到来
人类毕生的追求,莫过于“明”。孔子说:“朝闻道,夕死可矣。”做个明白人,追求光明、知识和规律,做到明智、明德、明理,这应该是人毕生的目标。
光明,指的是普照万物的自然之光,它是地球上万物存在和生长的前提。在生存的基础之上,我们把和野蛮相对的、较为先进的状态称为文明,顾名思义,这种“明”,应归功于文字的发明——文明。
而今天,在光明和文明之外,数据带来了一种新的“明”。它将超越文明时代。因为,万事万物都将成为数据定义的“数体”,所有数据都可转化为“0”和“1”,整个社会呈现出无数的“数纹”,它们共同创造出一个高清社会,“数力”让千万年来人性的模糊边界更加清晰。当然,每个时代都会有时代病,“数明”时代也面临着诸多挑战,人们还会在“数惧”中挣扎,数据将成为隐私的主要载体,隐私将成为头号社会问题,“数权”的确立还需要相当长的一段时间,新时代的“数纹”也可能成为专制、威权政府对社会进行全面控制的工具。
一切皆记录
在这个世界上,有三件事不可避免:纳税、死亡和被收集数据。
据不完全统计,今天全世界已经生产了140亿个摄像头,全球人均2个,未来10年其数量还将呈现年均两位数的增长率。到2020年,全世界的摄像头数量将达到280亿,是全球人口的4倍,远远超出计算机、笔记本电脑甚至手机的数量,人类历史上还没有一种小器械能持续创造出如此广大的市场。
据互联网统计公司Statist统计:截至2014年,美国有约4 000万摄像头,平均每8个人拥有1个摄像头;英国有580万个摄像头,平均每11个人拥有1个摄像头;如果在伦敦生活,一个人一天之中可能会被摄像头拍下70次左右。据推算,在中国天网中,官方所拥有的摄像头应该在1亿个上下,即每14个人拥有1个摄像头。
除了官方摄像头,还有大量摄像头在民间。比如现在很多家庭安装的摄像头,美国已经推出了小区摄像头联网软件——类似小区“天网”。我前段时间经历的一件事,已经初步体现了小区“天网”的威力。我所住的小区有业主家中失窃了,就在业主微信群里发问,马上有几个邻居调出自己家摄像头的数据,多个摄像头数据综合后,很快就发现了窃贼是另一家的保姆。
还有一个重要的摄像头来源,那就是行车记录仪。这次重庆万州公交车坠江真相大白就全靠车载摄像头,既有公交车车内的,又有其它车辆上的。据公安部交管局统计,截至2017年6月底,全国机动车保有量达3.04亿辆,其中私家车1.56亿辆。一个行车记录仪只要三四百元,几乎会成为车辆的标配。
官方天网、民间天网,再加上车载移动天网,构成了中国天网的“三体”,把这“三体”所有的摄像头数量加起来,中国天网的摄像头总数至少有三亿。
除了以上3亿不间断保持在线摄像的设备,别忘了中国还有庞大的智能手机用户,手机就相当于一部随时可调用的摄像机(照相机)。据中商产业研究院数据,中国2018年1—8月,移动互联网用户总数保持在13.7亿户,其中手机上网用户数达12.5亿户。2017年6月,26岁的中国女留学生章莹颖在伊利诺伊大学香槟分校附近失踪,这起离奇的失踪案牵动了许多华人的心。后来,即使发现了嫌疑人,又苦于没有证据。当时,就有人说,如果此案发生在中国,早就破了。
但美国这两年,倒也出现了几起有趣的事。
2015年7月,美国洛杉矶有一场球赛。观众席上有一对姐妹,她们的前排坐着一对夫妻。夫妻中的太太在发短信,结果整个短信聊天的过程被后排座位更高的姐妹尽收眼底。她们发现,这位太太发的短信内容暧昧,已经表明她出轨了。姐妹俩立刻掏出手机把过程拍了下来。球赛散场时,她们给那位蒙在鼓里的先生递了一张纸条:“你太太出轨了,我们看到她给名叫艾伦的男人发短信,我们拍下照片以防止她删除短信,抱歉,但我们认为你应该知道。”半小时后,这位先生联系了姐妹俩并索要了她们当时拍下的照片。
2014年12月,一名女孩在观看底特律雄狮队的足球比赛时,有一名男性和他怀孕的女友坐在她前排。这名女孩看到那名孕妇在跟另一名男子发暧昧短信,她也在比赛后给这个男人递了一张纸条,并把这次奇遇分享到了Facebook上。
如果不喜欢球赛,就不要勉强自己陪老公去了
我们正在进入一个普适记录的时代,所谓普适记录,是指记录的设备越来越小、越来越普通,记录的手段越来越便捷,随处可见、随手可得。曾经,我们是选择记录什么;现在和未来,我们是选择不记录什么。因为记录的普适化,人人在记录,人人也在被记录,人类正在踏进一个无侥幸社会。
记录即有用
无侥幸社会
什么叫无侥幸社会呢?就是民间流行度很广的那句大白话,不是不报时候未到。
2016年8月,轰动一时的甘肃白银案告破,嫌犯高承勇被抓,他曾经在白银、包头等地强奸杀害11名女性,手段极其残暴凶狠。能抓获高承勇,与“Y-DNA染色体检验”技术有关,这种染色体是父系遗传的基因,据此可以圈定一个家族的谱系和范围。此前,警方多次锁定高承勇居住的区域,收集居民的相关数据,但高承勇都侥幸避开。最后警方获得了高承勇家族一名成员的数据,通过基因对比,发现其基因与案犯高度相似,于是逐步缩小了嫌疑人的范围,最后锁定了高承勇,在提取了高承勇的各种生理数据并进行对比之后,悬案终于真相大白。
同样是2016年,杭州之江花园灭门血案告破。2003年,俞某入室抢劫,连杀三人,随后潜逃,再无音信。2012年,杭州警方就将人像、DNA(脱氧核糖核酸)、指纹、掌纹、足印以及鞋底式样等数据向云端转移,形成“物证云”,任何一个嫌疑人的数据都可以在“云”中和其他数据进行大规模的比对。2015年9月,一名男性在诸暨一家面馆因为争吵操刀砍人,当地警方因此提取了他的DNA等数据。在“物证云”的跨市数据比对中,杭州警方突然发现这名砍人的男性就是十几年前之江灭门案的凶手,俞某的身份很快得到确认。
你可以说这是偶然,但在技术普及之后,这就是必然。数据即证据,就此而言,用好大数据,我们将迈入一个更加安全的时代。
据统计,全国公安机关命案现案破案率已经连续5年超过95%,2016年,全国严重暴力犯罪案件比2012年下降43%。2017年8月,浙江省政府召开新闻发布会,宣布近2年来,全省命案破案率保持在99%以上,2017年上半年,全省治安案件数和刑事案件发案数分别同比下降7.76%和28.59%。现在可以说是有案必破,破积案、等案破、没案破。
个人行为重塑
当然,数文明带来的绝不仅仅是犯罪率的降低。当无侥幸社会成为共识,技术的威力会延伸到社会层面,进而产生广泛而深远的影响。
在中国的世俗文化里,有生死簿的说法,生死簿完完全全就是一个记录本。西方宗教的力量也来源于记录,宗教体系的核心机制就是记录和根据记录进行清算。
现代京剧《平原作战》的第一场,我军的英雄一上场,就对一群伪军大声宣布:
告诉你们,抗日军民掌握着你们的生死簿,谁做件坏事,记个黑点,到时候算总账。谁要是改邪归正做好事,就记个红点,立功受奖。
我们要红点!一名伪军班长马上喊起来。
当无侥幸社会的人们知道自己的数据无时不被记录,人人都会抢抓“红点”、避免“黑点”,也就是说人们的行为会被重塑。
国家治理能力提升
著名的《万历十五年》作者黄仁宇先生认为,传统中国与西方主要的差别,在于前者未能实现“数目字管理”,简单说就是对所有社会资源的“精细化管理”不够,导致传统中国从14世纪开始落后于西方文明,走向衰落。
如今机会来了,阿里巴巴、腾讯、百度等企业已经为用户建立了超级档案,比如支付宝年度账单。这种做法,政府也可以采用。政府不同部门拥有市民的不同数据,也可以为每一个市民建立一个超级档案,把一个市民在教育、医疗、交通、社保、纳税、犯罪、消费等不同管理部门所产生的数据记录都串起来。这份档案将包括一个人从摇篮到坟墓所有人生阶段的明细,一旦这个数据库建好,市民新的动态,即新的数据,每天将源源不断地被组织入库,对每一个市民,政府都可以依托数据和人工智能实现“终身记录、终身分析、终身管理、终身服务”。
社会是个复杂的体系,万千事物汇聚其中。但是,社会管理的“牛鼻子”无外乎是人以及与其相关的车和物。国家管理社会能力的提升,就必须清晰识别个体单位,从数据和技术角度看,已经能实现。我们已经看到,电商、社交、交通、餐饮、物流等互联网企业已经为自己建立了一个个平台,具备了这种能力,我们即将看到的,是政府也将拥有一个这样的平台,它的机理和互联网企业类似,但它掌握的数据将会更多、更广,所以,世界各国的政府将从这样的平台中获得惊人的治理能力。
数惧的阴影
当然,如今对数据的恐惧——数惧——也很多,这确实是一个问题,也是数文明的悖论。
一方面,数据越清晰、越全面、越真实,就越有利于个性化生产,避免资源浪费,比如精准营销、个性化页面、私人定制服务;另一方面,数据又带来了信息茧房、信息窄化的风险。一方面,大数据要求更加开放甚至是无限制的联接,另一方面这又将伤害个人的隐私和权利。
互联网渐成垄断之势,而个人的命运像一片孤舟,漂浮在无边的数据海洋里,我们以为自己是主人,结果却成了奴仆,我们以为太阳照常升起,可是新的一天已经跟前一天完全不同了。那该如何看待新文明的问题?文明从来都是在冲突中成长的,没有哪种文明一开始就很完美。
数据需要规则
一个摄像头,究竟应该何时开放、对谁开放?如何防范、解决开放带来的次生问题?作者认为,未来的方向是把问题前置,即在安装每一个摄像头之前,都应该明确论证并界定该摄像头的权力和边界,包括它能记录什么、什么时候记录、数据保存多久、数据是否联网共享、谁可以查看、如何查看等相关问题。
对这些问题清楚明确的回答,像是一个摄像头的“出生证”,没有“出生证”,新的摄像头就不能设置。如今,欧盟走在了前面,通过了《通用数据保护条例》,类似法规将在全球兴起,中国也不例外。
算法需要治理
人工智能的核心是算法。在人手一屏时代,互联网公司可以通过算法和它掌握的数据实现千人千价,此外,还有动态定价和动态加价,例如滴滴,遇上下雨天、高峰期,都要加价,但加价的算法到底是如何运行的呢?是不是我们拒绝加价,叫车的优先级就会被算法降低,甚至被暂时排除在算法匹配的序列之外?
滴滴的高管曾经在公开场合做过一些解释和说明,但显然并不能服众,消费者仍然在质疑真相。今后,不公开算法的公司可能会引发消费者担心,进而在市场遭遇消费者的报复。就像一款西药,如果不公开配方,不说明毒副作用,我们就不会吃,监督管理单位也不能让它在市场销售。
数据必须开放
这方面南京市已经迈出了第一步。2017年4月6日,李大妈发现自己停在长江路288号附近的电动车被盗。大妈在现场看见了摄像头和二维码,她在扫码之后就立即联系上了监控视频管理中心。着急的李大妈自己骑自行车来到了中心,现场调阅视频。很快,她在画面中,锁定了一名男子推走她电动车的镜头,她随后通过微信上的“玄微警”20把这张截图上传给了当地派出所,完成报案。两周之后,警方抓获了犯罪嫌疑人王某。
类似的公共空间摄像头,就应该在服务大众上发挥更好作用。至于学校、医院等大众关注的领域,则需要进一步的界定。
马云的计划经济
2016年11月,马云在上海的一场公开演讲中表示,未来30年,因为数据的获取,“计划经济”将会越来越大。这不是马云第一次唱好“计划经济”。早在2015年,马云在接受韩国的《中央日报》专访时,就表示相信“2030年计划经济将成为更优越的系统”;在2017年数博会上,马云再次提出,未来30年,大数据时代将重新定义“计划经济”和“市场经济”,因为“大数据让计划和预判成为可能”。
马云对这个观点的坚持引发了商学两界的热烈讨论。回顾过去近100年的实践,绝大多数经济学家都认为,“计划经济”已经被证明是一种失败的资源调配模式。
今天互联网平台上的数据就如上帝之眼,可以洞察消费者的一举一动,既然基于大数据的预测可以强化计划者的预判能力,那为什么经济生活不能用大数据来进行计划和调控呢?
人心是个叠加态
恐怕马云想得太简单了。因为人,就像微观世界的粒子一样,不可观测,不可记录。对现实的观测,将会导致现实的坍缩。坍缩,叠加态,这都是量子力学里的名词,直接理解字义即可,就是在微观层面,一个粒子既在一个地方又在另一个地方,我们永远无法知道它究竟在哪里,只要我们去测量,肯定会得到一个结果,但这个结果完全无法重复得到。同时,测量本身也是一个变量,测量的加入会影响测量本身。其实很好理解,不就是我们常常说的人好多决策就是一念之间吗?
人在城市中的轨迹就像微观世界的粒子一样测不准。面对摄像头和录音机,人的行为会改变,其实只要收集数据、反馈信息,就能改变人们的行为。例如现在很多城市都在显要处安装交通引导大屏,红色表示拥堵,黄色表示繁忙,绿色表示通畅,你一看当然挑绿色走,但你会发现,你走到哪儿,哪儿就变成红色,为什么?因为很多人和你一样看了引导系统,所以改变了选择。
再拿股市来说,每一时刻都有无数的人在股市上买进卖出,假设有一个人,上帝因某种原因赋予了他准确预测一只股票明天走势的能力,假设他知道这只股票要涨,于是大量买入。问题是,他这种大量买入的行为本身就会影响市场,影响其他粒子在这个大磁场中运行的轨迹,其他粒子于是也大量买入或者卖出,这就影响了该股票第二天原本会有的走势。可他如果知道这只股票要涨,又什么都不做,那他的预知就没有任何意义。
再说朋友圈。你在朋友圈发的东西一定不会和你独自写日记的东西完全吻合。因为你知道朋友圈有人看,你就会调整优化甚至迎合潜在的观看者,而这个行为,反过来又会影响你自己。
人有自由意志,是不可观测的粒子。人类对自己未来的预测永远都不可能准确,因为你一旦说出你的预测,就会有人反其道而行之,预测本身会改变被预测者的行为,个体的行为因此无法被预测,但对一个群体来说,预测又重新变得可能,因为群体之内的自由意志可能互相平衡、抵消,这就是为什么预测一只股票价格的变化非常困难,但预测整个股市的变化趋势要容易很多。
对城市的管理者而言,也不需要一五一十地追踪几百万个球体的运动轨迹,只需要回答一些特定的问题,就能很好地完成管理任务。例如,在一分钟之内,有多少个球进洞了,又有多少个球击中了特定横杆的特定位置?或者是一个球和其他球发生了多少次撞击?掌握了这些信息,就可以描绘出一个球的大致轨迹。对除了那些特定位置的其他位置,我们只要推算概率就行了。这正是我们今天的城市在收集、使用、分析数据时的基本思想。
记录做不到全知全能
除了不可记录之事,可记录之事同样有巨大的局限性。数据一经产生,就是碎片化的,数据就像碎玻璃,它从来都是断片的、不连续的,数据只能记录事实的一个或数个侧面,无论怎么记录,它从来没有、也不可能形成一个全然完整的事实。因为,不同的机器算法,不同的人三观不同,面对同一组数据,不可能达成同样的认识。
同时,客观事实确实只有一个,但一个事实有千万个面,人们因为自己的局限,往往只能看到自己认同的那一面,很少有人能面面俱到,看到一个事实的全貌,人们各有各的事实。
这带来了一个巨大的时代风险:数量庞大的数据将导致“人人皆有数,人人都有理”。一个人要做出与其他人迥异的结论,总可以找到相应的数据来支撑自己。其中的本因就是,数据再多,我们都有可能无法掌握事实的全貌。数据会逼近事实,但数据再大,终究不是事实。
如果有上帝,那只有他的眼睛才能看到万事万物的全貌,人做不到,再大的数据也做不到。
记录永远在追逐
数据记录的是事实,但一记录,事实就成为过去。记录永远在追赶事实,这就是记录的局限。因为事实不断在变,记录的价值永远是相对的,爱因斯坦的相对论是关于时空和引力的,新的相对论是关于数据和事实的。这一点可以用人口统计案例来说明,哪怕如今,你去问中国、美国任何一个地方的省长、州长、市长,他们永远不知道自己管辖范围内精确的人口数量。书中介绍了美国为掌握真实的人口数量,历经200多年的、曲折反复的人口普查。感兴趣的可以去详读,基本道理就在于“记录永远的滞后性”。
个人的建议
保护自己
在京东、天猫、美团等购物平台,包括提供社交、资讯类的腾讯、今日头条看来,你我都是一头头数据奶牛。在作者看来,这些公司其实都应该付我们一笔数据费,没有我们源源不断的免费数据输入,他们能做大做强到如今的地步。当年,欧洲殖民者来到美洲,疯狂地抢金银。当地土著很纳闷,觉得那些东西不能吃不能穿的,值得吗?现在呢?当地的土著也知道金银的重要了。你我,现在就像是当年的美洲土著。
当然,现实情况是这些大企业也为我们的生活便利提供了帮助,比如我前几天在京东搜索过甲醛检测仪,现在我每次打开京东,首页都有甲醛检测仪,还有空气净化器推荐。对此,我有些恐惧,有些无奈,也有些顺理成章的习以为常。如果说大企业还有基本的信誉,以及数据库更不容易用于交易或失窃,那每天在朋友圈里输入个人头像、身高、性格等等进行什么人格测试之类的,毫无疑问可看成是刻意包装后的信息爬虫,专门捞取你的信息,至于干什么,有可能会很恶心,我就不说了。包括尽量不要在朋友圈以及任何社交媒体暴露未成年人的信息,这是对他们最好的保护。
我们已经被记录得太多了,一定要有保护意识。哪些是必须被记录的,哪些是可以节制的,哪些是完全没必要的……
作为成年人,一定要知道一个道理,所有免费的,都是最贵的。这其实是一个经济学常识,你以为你占了便宜,而那个便宜往往是一个坑。
武装自己
不管你认不认同“数文明”这个提法,我们已经进入一切皆被记录的时代。在时代大势面前,只有顺势而为。首先是个人的数据思维,包括整个的价值观,都需要更新换代。我们必须懂得让数据为自己赋能,使自己成为数据时代的超级个体。
按作者的原话就是:
通往个人专业成功的有效路径就是记录。就记录而言,人脑不如电脑,因为人脑是微分机制,而电脑是积分机制。有效的学习,更需要积分机制。善用记录和数据,我们就能在成功的道路上获得能量“加持”。
至于具体的办法,就是积累你的数据,尤其是你的核心数据——别人很少掌握或难以掌握的。比如,今天你遇到一个困难,是怎么处理的,哪些地方处理得当,哪些地方处理失当。
最简单的积累数据的方法,就是写日记,记录你自己。历史上靠写日记升级自己的例子很多,比如天资驽钝的曾国藩,我常常想曾国藩的逆袭其实就是大数据的威力。
也许有人觉得写日记与大数据有所背离。其实不然。按照谷歌的数据科学家赛斯的观点,大数据这个名字本身会给人一种误解,认为大数据的关键在于数据量很大。赛斯认为,数据集的大小,跟数据本身的效果、数据的真实程度等都有关。举个例子,一个火热的炉子,你只需要碰到一次,就明白,热炉子很危险,会烫伤你。但是,你可能需要喝几千杯咖啡,才能确定,咖啡是否会让你头疼。原因就在于,热炉子本身的效果强度很高,因此,只需要一项数据,就能显现出结果。
由此可见,写日记之所以厉害,在于这本身是一个私密的东西,因为私密,所以真实。用赛斯的话说,“你未必总是需要大数据,才能得出重要见解,你需要正确的数据。”
数文明时代,我们把数据比作工业时代的“石油”。没有石油这个能源,工业机器就开动不了。如果从现在就开始积累你的数据,今后,当别人都能源枯竭停滞不前,你还有源源不断的动力一路向前。
网友评论