美文网首页proto-buf XML Josn
[阅读小结]《大数据时代》

[阅读小结]《大数据时代》

作者: 401 | 来源:发表于2020-02-10 11:58 被阅读0次

    阅读小结系列是阅读完后一本书后的总结

    小结的目的是总结原书内容、主题和思想,加深自己对这本书的理解

    此文为维克托.迈尔-舍恩伯格《大数据时代》的阅读小结

    书籍信息

    书名:《大数据时代》
    作者简介:

    1. [英] 维克托.迈尔-舍恩伯格(Viktor Mayer-schonberger):被誉为“大数据时代的预言家”,现任牛津大学网络学院互联网研究所治理与监管专业教授。曾任哈弗大学肯尼迪学院信息监管科研项目负责人,新加坡国立大学信息政策研究中心主任。
    2. 肯尼思.库克耶(Kenneth Cukier)。《经济学人》数据编辑,曾任职于《华尔街日报》和《国际先驱论坛报》
    WechatIMG1.jpeg

    大数据时代是我挺早之前就阅读过的书,且读过不止一次,最近抽出时间重翻了一遍,在此做一个小结。

    大数据时代这本书所表达的大多数理念对于大数据日益显著的今天是显而易见的。但在 2012 年就系统性提出了关于大数据时代的洞察,不得不说是具有前瞻性的。

    全书围绕三个方面展开:

    • 大数据时代下的思维变革
    • 大数据时代下的商业变革
    • 大数据时代下的管理变革

    其实全书的重点在第一部分即思维变革,而商业变革和管理变革算是思维变革下在不同方面的反映。

    大数据时代下的思维变革

    思维变革体现在三个层面。

    不是随机样本,而是全体数据

    在信息和数据匮乏的小数据时代,我们需要用尽可能少的数据来证实尽可能重大的发现,这正是传统统计学目的和价值所在,这也是传统的数据处理思维。

    从早期的人口普查到各种各样的群体调查统计,小数据时代我们习惯采用随机采样的方式,以图从最少的数据获得最多的信息。然而数据采样极大受限于采样随机性,导致最终结果的准确性总是存在缺陷。

    而大数据时代,则将开启全数据模式,样本 = 总体。我们有条件也有能力在全量数据的基础上更细致研究和洞察数据的方方面面。

    在大数据时代应当善于利用全量思维,要充分意识到除了传统的样本分析法之外,我们有更好更全面的全量模式。

    不是精确性,而是混杂性

    对于 “小数据” 而言,由于收集的信息量有限,因此数据的质量、准确性具有极高的要求,容错的标准极高。数据的有限性意味着细微的错误对最终结果的精准性也会有极大的影响。

    因此在小数据时代,我们必须关注数据的精确性,我们要专注于数据的 “准确无误”,因为这直接影响着我们的结论。

    而大数据时代,海量数据不可避免的造成数据的混杂性,也造成部分数据的不准确。然后这并不是一种缺陷,与致力于避免错误相比,提高对错误的包容,在海量数据的背景下接受适量错误的存在将带给我们更多好处,将更有利于我们接近想要的结果。

    比起数据个例的准确性,我们应当更聚焦于数据的整体性。

    另外大数据的简单算法有时候比小数据的复杂算法更有效,最为典型的例子就是当前的机器翻译。目前基于海量样本的概率统计方法要明显好于在小数据思维下的复杂规则推理。

    机器翻译质量的跨越并非推演出了更好的算法,而是有了更完善、更全量的数据,同时这些数据允许适量错误的存在。

    大数据时代,而不应当再以高昂的代价消除所有的不确定性,我们要接受数混乱和数据的不确定性,这将使我们从数据的纷杂性和完整性上获益。

    不是因果关系,而是相关关系

    因果关系可以说是人类科学文明的基石,传统科研思维中因果关系占据绝对的地位。从某种角度来讲,科研的核心便是在不断演绎和推理过程中探索因果关系。

    但基于大数据诞生的统计关联分析等方法,实现了数据之间关联关系的挖掘。我们将有能力让数据 ”说话“,让数据来表达和呈现客观事实,甚至很多事实在我们了解其内在因果关系之前就已被呈现在我们面前。

    探索因果关系时需要建立假设,然后验证。而假设的验证受限于假说提出者的认知水平。但如果我们选择让数据展示其关联关系,最终呈现”是什么“,虽然探索”为什么“也非常重要。但在很多场景下,相关关系已经能够帮我们解决足够多的问题。

    在大数据时代,我们应当提高对相关关系的关注,但不意味着相关关系将取代因果关系,大数据也不应该叫嚣”理论已死“。但它毫无疑问会改变我们认知世界的习惯和方式。

    大数据时代下的商业变革

    1. 数据化:一切皆可量化
    作者通过各个案例如莫里的数据化导航图、谷歌的数字图书馆、地理定位等,表达在大数据时代,现实世界的各类信息将以难以想象的速度进行数据化,从某种层面上,所有的现实信息均可数据化。

    实际上这一点会充分体现在目前的物联网上。

    2. 价值:“取之不尽,用之不竭”的数据创新

    • 数据可重复使用的特点,即数据的价值不会衰减。
    • 数据在不同场景可以有不同用途,即数据的价值是多样的。

    3. 角色定位:数据、技术与思维的三足鼎立
    根据所提供价值的不同来源,将会出现三种大数据公司。

    • 基于数据本身的公司。此类公司拥有大量数据或者至少可以收集到大量数据,却不一定有从数据中提取和挖掘价值的能力。
    • 基于技能的公司。此类公司具有专业的数据挖掘能力,能从数据中挖掘相应的信息。但却不一定拥有拥有数据,也不一定有发挥数据创新用途的才能。
    • 基于思维的公司。此类公司具有将数据价值进行创新应用的能力,能结合数据挖掘出的信息进一步实现价值转换。

    而这三者中最重要和最值钱的应该是数据本身,数据本身才是真正的黄金。

    另外作者还提出了由于数据本身的高价值,所以可能会出现数据中间商(或数据交易平台)。

    大数据时代的管理变革

    1. 风险:让数据主宰一切的隐忧

    • 在大数据时代,实际上无论是告知和许可,模糊化和匿名化,用户的隐私都是难以得到保障的。
    • 基于大数据的预测能力(如通过你的搜索记录、聊天记录预测你是否有犯罪预谋),以后的惩罚可能会基于你的“将做”,而不是“已做”。但对预测到的未来行为判罪将否认我们进行道德选择的能力。
    • 数据可能会成为管理和决策的重要标准,久而久之导致我们形成对数据的执迷,赋予数据原本不该有的盲目信任和权力。

    2. 掌控:责任与自由并举的信息管理

    • 管理变革-个人隐私保护。应该从个人许可到让数据使用者为其行为和结果承担责任。因为数据的价值很多部分在二级用途上,而收集数据时并未作相应考虑,那么“告知和许可”的作用就很有限。(这一点可以结合现在 GDPR 来思考)
    • 管理变革-大数据算法师的崛起。大数据预测、运算法则等有变为黑盒子的风险。而面向这个黑盒子,则可能会出现对这些黑盒子进行评估和解读的新角色,以保证公正和保密,这些角色便是大数据算法师。

    相关文章

      网友评论

        本文标题:[阅读小结]《大数据时代》

        本文链接:https://www.haomeiwen.com/subject/iniroftx.html