美文网首页
01|更多:不是随机样本,而是全体数据

01|更多:不是随机样本,而是全体数据

作者: pooncheukkei | 来源:发表于2019-03-26 14:29 被阅读0次

    第一部分 大数据时代的思维变革
    01|更多:不是随机样本,而是全体数据
    02|更杂:不是精确性,而是混杂性
    03|更好:不是因果关系,而是相关关系

    第二部分 大数据时代的商业变革
    04|数据化:一切解渴“量化”

    让数据“发声”

    大数据与三个思维转变有关,这三个转变相互联系,相互作用

    1. 要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。
    2. 乐于接受数据的纷繁复杂,不再追求精确性。
    3. 思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。

    无意识的自省:把数据交流的困难看成是自然的,而没有意识到这只是当时技术条件下的一种人为的限制。

    小数据时代的随机采样,最少的数据获得最多的信息

    【case1】

    • 古埃及进行人口普查,记录每个人的信息。
    • 统计学推算鼠疫时期伦敦的人口数。(样本分析法有较大的漏洞)

    【case2】穿孔卡片与美国人口普查

    1. 起初耗费8年完成数据汇总(数据过时)
    2. 使用穿孔卡片耗费1年完成人口普查(耗费大量资金)(标志自动处理数据的开端

    【case3】电话用户为基础进行投票

    1. 缺乏随机性
    2. 没有考虑移动用户。

    采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。

    样本的随机性比样本数量更重要。通过收集随机样本,可以用较少的花费做出高精准度的判断。

    它本身存在许多古有的缺陷,所以只能在不可收集和分析全部数据的情况下选择。随机取样的成功依赖于采样的绝对随机性,但是现实采样的随机性非常困难。

    随机采样不适合考察子类别情况。缺乏延展性,数据不可以重新分析以实现计划之外的目的。

    【case4】乔布斯的癌症治疗
    对自身所有DNA和肿瘤DNA进行排序。得到整个基因密码的数据文档。

    全数据模式,样本=总体

    采样的目的:用最少的数据得到最多的信息。

    【case5】谷歌流感趋势预测
    不是依赖于对随机样本的分析,而是分析了整个美国几十亿条互联网搜索记录。

    【case6】xoom与跨境汇款异常交易报警
    检查所有数据,找出样本分析法错过的信息

    无论是针对一个小团体还是整个社会,多样性是有额外价值的。

    统计抽样,在技术受限的特定时期,解决当时存在的一些特定问题而产生。

    相关文章

      网友评论

          本文标题:01|更多:不是随机样本,而是全体数据

          本文链接:https://www.haomeiwen.com/subject/htgwvqtx.html