美文网首页
12.24读书笔记《大数据时代》

12.24读书笔记《大数据时代》

作者: 望亭陆曙良 | 来源:发表于2024-01-13 16:55 被阅读0次

 更多:不是随机样本,而是全体数据

让数据“发声”

IBM的资深“大数据”专家杰夫·乔纳斯提出要让数据“说话”。

大数据与三个重大的思维转变有关:

首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。

其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。

最后,我们的思维发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。

事实上,我们形成了一种习惯,那就是在我们的制度、处理过程和激励机制中尽可能地减少数据的使用。

小数据时代的随机采样,最少的数据获得最多的信息

有目的地选择最具代表性的样本是小数据时代的产物。1934年,波兰统计学家耶日·奈曼指出,这只会导致更多更大的漏洞。事实证明,问题的关键是选择样本时的随机性。

统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。当样本数量达到了某个值之后,我们从新个体上得到的信息会越来越少,就如同经济学中的边际效应递减一样。

认为样本选择的随机性比样本数量更重要,这种观点是非常有见地的。通过收集随机样本,我们可以用较少的花费做出高精确度的推断。

本质上来说,随机采样让大数据问题变得更加切实可行。

随机采样只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性,但是现实采样的随机性非常困难。一旦采样过程中存在任何偏差,分析结果就会相去甚远。同时,随机采样不适合考察子类别的情况,因为一旦继续细分,随机采样结果的错误率会大大增加。随机采样的调查结果缺乏延展性,即调查得出的数据不可以重新分析以实现计划之外的目的。

全数据模式,样本=总体

“样本=总体”是指我们能对数据进行深度探讨。但我们需要足够的数据处理和存储能力,也需要最先进的分析技术。同时,简单廉价的数据收集方法也很重要。

大数据不用随机分析法这样的捷径,而采用所有数据的方法。因为大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的,所以我们就可以正确地考察细节并进行新的分析。在任何细微的层面,我们都可以用大数据去论证新的假设。

(28-43)

相关文章

  • 12.24读书笔记

    12.24俞敏洪/《不负我心》 举个简单例子,在中国古代,很多知识分子能在18岁以前把四书五经全部背完。但是如果一...

  • 12.24读书笔记

    12.24俞敏洪/《不负我心》 举个简单例子,在中国古代,很多知识分子能在18岁以前把四书五经全部背完。但是如果一...

  • 两周一本:《大数据时代——生活、工作与思维的大变革》读书笔记

    《大数据时代——生活、工作与思维的大变革》读书笔记 大数据意味着更多的不是随机样本,而是全体数据,获得所有数...

  • 大数据时代

    以前看了些许互联网方面的书籍,笔记也都是简单的纸质版,近几日想把读书笔记整理一下,嗯,第一篇就是大数据时代吧。 大...

  • 大数据时代

    大数据时代,出现三大大数据公司,分别是 数据本身,技能,思维

  • 2017-12-24

    啊泽12.24

  • 2018-12-24

    棉花糖12.24

  • 身处的这个大时代

    《智能时代》读书笔记 大数据与人工智能是如今热的不能再热的词了,朋友圈每天都有人在刷大数据,在提示我们大数据...

  • 信号与噪声:大数据时代预测的科学与艺术 读书笔记

    信号与噪声:大数据时代预测的科学与艺术 Nate Silver[美]纳特•西尔弗 读书笔记 预测是什么 ...

  • 报告总统(下)

    一、大数据时代的数据收集、分析 大数据之所以为”大“,有两个层面:其一、数据量大,海量数据;其二、分析规模大:由于...

网友评论

      本文标题:12.24读书笔记《大数据时代》

      本文链接:https://www.haomeiwen.com/subject/agfhndtx.html