[英] 维克托.迈尔-舍恩伯格 肯尼思.库克耶 著 盛杨燕 周涛 译
浙江人民出版社
大数据时代最近一直在看大数据类的书籍,记得很久之前看过这本书,感到对这本书有点陌生了,于是在书柜了翻出来再细细读了一遍,读完感觉又和以前的理解不一样。今年大数据一直是比较热门的话题,身边一直都能感觉到大数据在生活中的无处不在。衣食住行这些生活的元素已经在不断的渗入越来越多的数据信息,并这些信息得到收集,很多数据也已经产生新的社会概念,影响着一代的人,所以大数据不是未来,因为已经到来。
这本书的结构还是体现着理工男的逻辑思维模式,按照总分总的标准格式书写,先提出大数据的现状和整书的概述,然后分开三个方面,围绕着大数据的思维变革、大数据的商业变革和大数据的管理变革来进行分析,最后对大数据的未来做出预测和评价。书内例子和个案很多,也有很多有趣的商业故事,行文不乏枯燥。
一、思维变革:在我们达到目的地之前,我们有必要了解怎样才能到达。
要理解大数据真的要首先有大数据的逻辑思维,因为大数据已经变成形态的时候,她自己内部就会有自己的规律。要控制或利用大数据,首先肯定要先改变以往的思维模式,包括很多统计学,因果关系等传统的逻辑关系,因为这些在大数据中有些是不适用的,甚至是和原来的推导的结论完全悖论。下面就是书中所说就是三个最主要的大数据思维。
1、不是随机样本,而是全体数据
记得以前在学统计学和自己做研究的时候,抽样随机对照就是一种非常经典的实验方法,这是源于人类无法获取全部数据时发明出来的一种统计学方法。但那时候我就一直有些疑问,比如血红血胞的正常值就是通过抽样统计出来的,就是在一个城市里抽取一定量的血液标本进行检测,从而推导正常值的标准。这样能如何保证抽取的样本时均衡的呢?但这是在全体数据获得困难时所采取的方法。但大数据不一样,因为她记录的是全部的数据,无一漏掉。
由于能记录的是全部数据,所以我门用的也是全部数据,也就是说,我们现在可以更关注的是整体,而不是部分。这对我门建立数据分析时很重要,因为这种整体的数据模式将能展示事情的全方面,也要求我们在设计时把整体的概念融入实践中。
2、不是精确性,而是混杂性
在做研究项目或写研究报告的时候,有一项是必须要做就是“排除标准”,就把一些不符合的条件的样本,或者达不到标准的样本去掉。 但在大数据时代这些将不再需要考虑。这里讲的混杂性就是允许数据里的缺失或参差,并在大数据运用中不再关切道精确的程度。
这里所说的混在性,并不是说精确性不重要,而是大数据欣赏的是不精确而不会假装精确。这也并不代表系统不知道正确的数据是什么,只是当数量规模变大的时候,确切的数量已经不那么重要了。这就会使“一个唯一的真理”的观念得到彻底的改变。所以随着大数据技术成为日常生活中的一部分,我们应该开始从一个比以前更大更全面的角度来理解事物,也就是说应该把“样本=总体”植入我们的思维中。
3、不是因果关系,而是相关关系
我们理解和解释世界各种现象时会使用两种方法:1、快速虚幻的因果关系2、缓慢有条不紊的因果关系。这两种就是所说的人类的快慢思维,但都会有有一个基础“因果关系”。人类都很习惯这种因果关系的思考模型,但大数据会改变这两种基本方法在我们认识的世界时所扮演的角色。
在大数据下,我们知道是什么就够了,没必要知道为什么。建立在相关关系分析法基础上的预测是大数据的核心。这个系统依赖的是相关关系,而不是因果关系,系统只是告诉你会发生什么,而不是为什么发生。事实上,通过去探求“是什么”而不是“为什么”,相关关系能帮助我们更好地了解了这个世界。但这也并不意味着要否定因果关系,因果关系还是有用的,但是它将不再被看成是意义的来源基础。相关关系分析通常情况下能取代因果关系起作用,即使不可取代的情况下,它也能指导因果关系起作用。
二、商业变革:传统行业最终都会转变为大数据行业。
大数据能持续走下去,价值的不断提升是主要原因。特别是在商业中,大数据的价值更是在不断的发掘。而数据缠产生价值的核心是量化,即所有的变成数据。比如把方位量化,把文字量化,把沟通量化,变成数据,然后就产生了导航、电子书、社交平台这些 新的商业行业和模式,并产生巨大的互联网产业链。这些产业都是以数据作为基础,一切都是围绕着数据进行实施。数据的商业价值在于创新,包括:数据再利用、重组数据、可扩展数据、数据的折旧、数据的废气、开放数据。
由此,作者根据大数据价值链的3大构成,数据、技术与思维的三足鼎立,划分了三类互联网大数据公司。1、基于数据本身的公司,如:Twritter;2、基于技能的公司,属于技术分析类公司,如:天睿公司(Teradata);3、基于思维的公司,通过想法获得价值。这三类公司也构成了互联网商业的基础生态。
至于传统行业变成大数据行业,也许就真的是只剩下时间的问题。
三、管理变革:不能让大数据的发展超出我们可以控制的范围
这个章节是自己比较关心的一部分,大数据展示在世界中的时候,我们将如把自己的衣服脱得一件不剩展现在世界中,我们的隐私怎么办?如果大数据走向智能,人类该如何掌控?我们在享受的大数据的便利的时候,是否也逐渐陷入大数据的威胁当中?书中也做了管理控制的论述。
1、个人隐私的保护
目前我们的每天产生的数据是以TB的量级计算,而这些数据代表着我们每一个人内在和外在的所有信息变化,但这些数据是暂时无法保护的。特别是大数据的二次使用过程,这里面所产生的个人信息统计和汇总,经过数据的再次分析和预测,我们将彻底表露无遗。在互联网时代,不管是告知于许可,模糊化还是匿名这三大隐私保护策略都会失效。如今很多用户都觉得自己的隐私已经受到威胁,当大数据变得更为普通的时候,情况将更加不堪设想,但目前确实是没有什么好的方法可以避免。但其中有一个方向我个人觉得是对的,从个人许可到让数据使用着承担责任,并设定使用时限。
2、预测分析不能判罪
大数据最大的价值就是预判,就是综合样本数据后对未来的走向进行预测。在有些行业是值得推广的,但当预测用于预测犯罪时,判别的性质就开始改变了。就是说,你未开始犯罪,根据预测就可以定罪。有一部电影《少数派报告》说的就是类似的概念。大数据的预测给我们带来的威胁,不仅仅局限于司法公正上,还会威胁到任何大数据预测对我们未来行为进行罪责判定的领域,比如民事法庭案件中判定过失以及公司解雇员工的决策。所以绝不能因为大数据的分析预测它们可能犯罪,就判定它们有罪。
3、数据审计师
我们看到大数据的预测,运算法则和数据库有变成黑盒子风险,而这个黑盒子不透明、不可解释、不可追踪时,我们会对这些数据逐渐信心全无,也许我们就是需要大数据算法师。这是一个新生的行业,这类新型的专业人们对数据进行监管服务,他们将帮助社会大众增加对数据的信心。
4、反对数据垄断
为了促进大数据平台的良性竞争,政府必须运用反垄断条例,就像世界上一些大数据拥有者那样,政府也应该公布其数据。
四、我的看法
大数据不是口号,是已经来到身边的未来,尽管还有很多的不完善但从没停止前进的步伐。改变和威胁是一直并存的,这将影响一代一代发展的方向。
没有什么是上天注定的,因为我们总能就手中的信息制定出响应的对策。大数据预测结果也并非铁定,而只是提供了一种可能性,也就是说,只要我们愿意,结果可以改写。
大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,以便等待更好的而方法和答案出现。这也是提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本。
网友评论