5月24日,在来贵阳参加数博会的飞机上,我用三个小时的时间读完了维克托·迈尔-舍恩伯格的《大数据时代》,这本书是两年前一个做大数据的朋友送我的,放在书柜里一直未读,这次在参加大数据论坛之前阅读,也是恰逢其时。
作者维克托·迈尔·舍恩伯格是数据科学的技术权威,也是最早洞见大数据时代发展趋势的数据科学家之一,他曾先后任教于世界最著名的几大互联网研究学府,现任牛津大学网络学院互联网治理与监管专业教授,并担任耶鲁大学等名校的客座教授。从谋篇结构能感受到作者严密的逻辑,除引言外,分为三个部分,第一部分谈大数据时代的思维变革,从三个方面进行深入细致的阐述,第二部分谈大数据时代的商业变革,从数据价值、角色定位等不同角度阐述大数据引发的变革浪潮。第三部分谈大数据时代的管理变革,谈大数据潜藏的风险以及政府、技术企业、科研机构等在应对风险时的角色定位和对策思路。全书有理论、有实践,有现实的案例,也有对未来的预期。朋友谈及本书时,认为这本书是大数据方面最好的书,我阅读后,亦深以为然。在此,浅谈三点感受。
一、“顺势而为”变思维
时代的发展,需要我们与时俱进,去适应新环境、新事物。适应体现在两个方面,一是道的层面,一是术的层面。改变工作方式,学会使用新的工作方式我认为都属于“术”,最本源的还是要在思维方式上跟上时代的步伐,洞悉时代变革之“道”。作者一开始就抛出三个大数据时代带给我们的思维变革。
第一个思维改革:不是随机样本,而是全部数据。大数据时代对传统统计学构成了冲击。在这样一个我们有足够强大的数据搜集和数据处理能力的时代,样本不再是万分之一,而是全数据、全流量。统计学在随机抽样方法中有一条原理:“采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。”可以说,“样本分析”奠定了绝大多数科学研究的基础。而大数据时代,全数据分析的模式将全面替代“样本分析方式”。正如《魔鬼经济学》中关于相扑运动员的研究,其创造性的观点正是通过使用了11年中超过64000场摔跤比赛的全数据记录来寻找到了异常性。这样的洞见,恰恰是样本分析所无法提供的。
第二个思维变革:不是精确性,而是混杂性。数据量的显著增大也必然会让我们付出一些代价,如一些不准确的数据会混入数据库,结果也可能不准确。这就是大数据时代的另一种思维——“不是精确性,而是混杂性”。 对“小数据”而言,最重要的要求就是减少错误。而在大数据的采集里,在技术尚未达到完美无缺之前,混乱是无可避免的。虽然我们得到的信息不再那么准确,但收集到的数量庞大的信息让我们放弃严格精确的选择变的更为划算。从谷歌翻译系统中可以看到,它收集了上万亿的语料库,来自未经过滤的网页内容,可能会含有不准确的用法、语病,未必每一条语料库都非常“精确”,然而这个语料库是布朗语料库的几百万倍大,这样的庞大规模优势完全掩盖了它的缺点。也就是“大数据的简单算法,比小数据的复杂算法,更加有效”。
第三个思维变革:不是因果关系,而是相关性。大数据思维只关注“相关性”,而不再关注因果关系。学过“数据挖掘”课程的朋友都知道沃尔玛的“啤酒与尿布”的案例:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买尿布。这样的发现就让超市将尿布和啤酒摆放在一起出售,从而提高利润。”我在《细节》这本书也看到过类似的案例,通过数据分析来确定各类商品的摆放位置,从而提高销售量。这是个搞不清楚因果关系的问题:尿布和啤酒的销售量为什么会有关联呢?我们在工作生活中形成的“果必有因”的思维范式已经很难完美的解释这个问题,就如为什么沃尔玛里手电筒与蛋挞的销量具有正相关性一样让人无法理解一样。所以,在大数据时代,数据会告诉我们答案,我们的思维要改变的很重要的一点就是,只要搞清楚“是什么”就OK,而不要过多纠结于“为什么”。
总而言之,大数据时代带给我们的是更多、更杂与更好。正如作者所言“大数据要求我们有所改变,我们必须能够接受混乱和不确定性”。认为每个问题只有一个答案的想法已经不适应这个时代了,不管我们承不承认。一旦我们承认了这个事实,甚至拥护这个事实的话,我们离真相就又近了一步。
二、“乘势而上”抓创新
目前,我们已经完全从“数字化”步入“数据化”时代。比如,在Foursquare和高德地图、百度地图中,“方位”已经被“数据化”,我们可以在任意喜爱的地点选择饭馆、酒店和其他各种服务。在Facebook、twitter或微信、微博里,"沟通"也已经被“数据化”,许多金融公司通过分析每天社交网络的大量数据,作为股市的投资信号。
“数据"作为一种非竞争性的资源,它的价值并不会因为被使用而减少,相反,它可能被通过不断地挖掘使用而产生出更高的价值。数据本身的价值,是它所有能够产生的可能选择的价值的总和。正如今年数博会信息安全论坛上专家所言“当今时代,得数据者得天下”。作者在《大数据时代》中提到了6种数据创新模式,结合参观数博会的体会,我认为其中3种正是我们需要结合实际工作去深入探究的。
一是重组分析“大数据”:将多个数据集的总和重组在一起时,其价值远比单个数据集大得多。比如,丹麦的癌症研究就是将所有的癌症患者和手机用户的数据结合起来,从而揭示癌症和手机使用是否有关联性。将所有快递信息、酒店信息、通信信息和购物信息等集合进行分析,就可以把每个人的隐私及爱好特点很生动的描绘出来。
二是扩展“大数据”功能。譬如,零售在店内安装的监控摄像头,不仅能认出小偷,也能跟踪经过商店的客户流和他们停留的位置,从而对货架的布局进行优化,以提升销售额。同样在公共服务的设计方面,在阿里云及高德地图的辅助下,很多城市已经通过监控数据来分析,优化各个道路信号灯的设计,降低拥堵率,提升公共服务品质。
三是利用“数据废气”:从反向入手,让异常数据为我所用。比如,在教育云模式下的拼写检查中,用户会有大量的错误拼写。这些数据看起来是废品,但收集在一起却能够锻造成一块闪亮的宝石。例如,当couresa这样的网络平台中一个班级数量超过万人时,教授发现2000个学生在作业中犯了同样的一个错误。修正后,系统将会提醒以后犯同样错误的学生。通过这些错误,我们提升了教学的针对性。目前,“数据废气”在实际应用中发挥巨大的作用,从国网和中石油、中石化的大数据案例分享中都能感受到“数据废气”在及时发现系统或设备故障预警中的作用。
基于大数据的潜在价值,当前及今后会有三种不同的大数据机构,第一种是基于数据,第二种是基于技术,第三种则是基于思维。我认为第一种就像拥有金矿的矿山;第二种就是像拥有开采、提炼金矿的技术;第三种则是深加工金矿的,把金矿做成精美首饰,通过创新思维让大数据具有更大的价值。在这个瞬息万变的时代,若不去主动创新,等待我们的,必然会是被动的应对。
三、“应势而动”控安全
任何科学技术的进步都是一把双刃剑,它为人们带来巨大的思维和商业变革的同时,也存在着隐私问题、数据泄露危机等诸多新的难题。
这是《大数据时代》这本书关注的重点,也是本届贵阳数博会的一项重要议题。多数信息安全企业都提到“徐玉玉事件”,大数据背后带来的也是重重隐忧,从我们的隐私不断暴露,个人在网络上留下的千丝万缕的踪迹似乎让人们又回到了《一九八四》里“老大哥在看着你”的那种担忧。“数据统治”的登峰造极从哲学上会抹杀人的自由意志和选择的可能性。
目前,阿里云可以整合我们在各种消费平台上的数据,来评判我们的信用,给我们一定的“芝麻分”,确定我们的信用等级;淘宝可以根据各类数据评判我们的喜好倾向,从而主动给我们推送相应的物品链接。未来,社会陪审团很有可能基于我们在各类媒介平台上的各种数据分析,断定我们中某些人今后存在犯罪的可能。那将是人性面对技术的一次溃败。
这个局怎么破?这是摆在当前的一个很严肃的命题。在这次大数据安全论坛上,各路学者专家、机构大佬谈了很多,从不同角度进行了阐述。归结起来,无非三个方面。首先,基础要夯实,建立起大数据安全标准体系和规范。其次,要做好顶层设计。全面谋划大数据安全的战略布局,推进信息技术与安全技术的深度融合。第三,要协同作战,无论在安全评估、情报共享还是应急处置等方面,各方形成合力,共固大数据安全铁笼。
阅读《大数据时代》的过程,让我想起托马斯·库恩《科学革命的结构》,我很赞同库恩的“科学革命是世界观的转变”的观点,大数据给我们带来的也是思维范式的根本性变革——我们将不再沉湎于历史和过去,试图解释某种联系,而是更好地觉知当下,与正在发声的未来。
网友评论