美文网首页
Big Data - 01. 更多

Big Data - 01. 更多

作者: Autistic_8d3b | 来源:发表于2019-03-27 18:50 被阅读0次

    不是随机样本,而是全体数据

    让数据“发声”

    大数据与三个重大的思维转变有关,这三个转变是相互联系和相互作用的。

    • 首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。
    • 其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。
    • 最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。

    小数据时代的随机采样,最少的数据获得最多的信息

    古代埃及人口普查,皇家委员会对每个人、每件事都做了记载 >>>《末日审判书》;
    当时收集的信息也只是一个大概的情况。


    John Graunt(英国裁缝)用统计学推算出鼠疫时期伦敦的人口数,可以利用少量有用的样本信息来获取人口的整体情况。

    • 运气好
    • 样本分析法有较大的漏洞

    穿孔卡片与美国人口普查
    • 美国发明家赫尔曼·霍尔瑞斯(Herman Hollerith)用穿孔卡片制表机来完成1890年的人口普查
    • 在1年的时间内完成普查的数据汇总工作。
    • 标志着自动处理数据的开端,为后来IBM公司的成立奠定基础
    • 但是,仍然过于昂贵

    1934年,波兰统计学家耶日·奈曼(Jerzy Neyman)指出,有目的地选择最具代表性的样本会导致更多的漏洞。事实证明,问题的关键是选择样本时的随机性。
    统计学家们证明:

    • 采样分析的精确性随着采样随机性的增加而大幅提高。但是与样本数量的增加关系不大
      当样本数量达到了某个值后,我们从新个体身上的到的信息会越来越少,就如同经济学中的边际效应递减一样。
    • 认为样本选择的随机性比样本数量更重要,这种观点是非常有见地的
      当收集和分析数据都不容易时,随机采样就成为了应对信息采集困难的办法。
      本质上来说,随机采样让大数据问题变得更加切实可行。

    随机采样取得了巨大的成功,成为现代社会、现代测量领域的主新骨。但是这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷

    • 实现采样的随机性非常困难
    • 随机采样不适合考察子类别的情况
    • 在宏观领域起作用的方法在微观领域失去了作用
    • 随机采样也需要严密的安排和执行
    • 调查结果缺乏延展性

    大数据与乔布斯的癌症治疗
    • 世界上第一个对自身所有DNA和肿瘤DNA进行排序的人
    • 高达几十万美元的费用,23andme报价的几百倍之多
    • 得到了包括整个基因密码的数据文档
    • 获得所有数据而不仅是样本的方法将他的生命延长了好几年

    全数据模式,样本=总体

    • 采样忽视了细节考察。“样本=总体”是指我们能对数据进行深度探讨。
    • 大数据中的“大”是取的是相对意义而不是绝对意义

    Xoom与跨境汇款异常交易报警
    • 分析一笔交易的所有相关数据
    • 发现异常的唯一方法——重新检查所有的数据,找出样本分析法错过的信息。

    在某些特定的情况下,我们依然可以使用样本分析法。但这不再是我们分析数据的主要方式。慢慢地。我们会完全抛弃样本分析。

    相关文章

      网友评论

          本文标题:Big Data - 01. 更多

          本文链接:https://www.haomeiwen.com/subject/jrltbqtx.html