不是随机样本,而是全体数据
让数据“发声”
大数据与三个重大的思维转变有关,这三个转变是相互联系和相互作用的。
- 首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。
- 其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。
- 最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。
小数据时代的随机采样,最少的数据获得最多的信息
古代埃及人口普查,皇家委员会对每个人、每件事都做了记载 >>>《末日审判书》;
当时收集的信息也只是一个大概的情况。
John Graunt(英国裁缝)用统计学推算出鼠疫时期伦敦的人口数,可以利用少量有用的样本信息来获取人口的整体情况。
- 运气好
- 样本分析法有较大的漏洞
穿孔卡片与美国人口普查
- 美国发明家赫尔曼·霍尔瑞斯(Herman Hollerith)用穿孔卡片制表机来完成1890年的人口普查
- 在1年的时间内完成普查的数据汇总工作。
- 标志着自动处理数据的开端,为后来IBM公司的成立奠定基础
- 但是,仍然过于昂贵
1934年,波兰统计学家耶日·奈曼(Jerzy Neyman)指出,有目的地选择最具代表性的样本会导致更多的漏洞。事实证明,问题的关键是选择样本时的随机性。
统计学家们证明:
-
采样分析的精确性随着采样随机性的增加而大幅提高。但是与样本数量的增加关系不大。
当样本数量达到了某个值后,我们从新个体身上的到的信息会越来越少,就如同经济学中的边际效应递减一样。 -
认为样本选择的随机性比样本数量更重要,这种观点是非常有见地的。
当收集和分析数据都不容易时,随机采样就成为了应对信息采集困难的办法。
本质上来说,随机采样让大数据问题变得更加切实可行。
随机采样取得了巨大的成功,成为现代社会、现代测量领域的主新骨。但是这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。
- 实现采样的随机性非常困难
- 随机采样不适合考察子类别的情况
- 在宏观领域起作用的方法在微观领域失去了作用
- 随机采样也需要严密的安排和执行
- 调查结果缺乏延展性
大数据与乔布斯的癌症治疗
- 世界上第一个对自身所有DNA和肿瘤DNA进行排序的人
- 高达几十万美元的费用,23andme报价的几百倍之多
- 得到了包括整个基因密码的数据文档
- 获得所有数据而不仅是样本的方法将他的生命延长了好几年
全数据模式,样本=总体
- 采样忽视了细节考察。“样本=总体”是指我们能对数据进行深度探讨。
- 大数据中的“大”是取的是相对意义而不是绝对意义
Xoom与跨境汇款异常交易报警
- 分析一笔交易的所有相关数据
- 发现异常的唯一方法——重新检查所有的数据,找出样本分析法错过的信息。
在某些特定的情况下,我们依然可以使用样本分析法。但这不再是我们分析数据的主要方式。慢慢地。我们会完全抛弃样本分析。
网友评论