第一部分 大数据时代的思维变革
01|更多:不是随机样本,而是全体数据
02|更杂:不是精确性,而是混杂性
03|更好:不是因果关系,而是相关关系
第二部分 大数据时代的商业变革
04|数据化:一切解渴“量化”
让数据“发声”
大数据与三个思维转变有关,这三个转变相互联系,相互作用
- 要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。
- 乐于接受数据的纷繁复杂,不再追求精确性。
- 思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。
无意识的自省:把数据交流的困难看成是自然的,而没有意识到这只是当时技术条件下的一种人为的限制。
小数据时代的随机采样,最少的数据获得最多的信息
【case1】
- 古埃及进行人口普查,记录每个人的信息。
- 统计学推算鼠疫时期伦敦的人口数。(样本分析法有较大的漏洞)
【case2】穿孔卡片与美国人口普查
- 起初耗费8年完成数据汇总(数据过时)
- 使用穿孔卡片耗费1年完成人口普查(耗费大量资金)(标志自动处理数据的开端)
【case3】电话用户为基础进行投票
- 缺乏随机性
- 没有考虑移动用户。
采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。
样本的随机性比样本数量更重要。通过收集随机样本,可以用较少的花费做出高精准度的判断。
它本身存在许多古有的缺陷,所以只能在不可收集和分析全部数据的情况下选择。随机取样的成功依赖于采样的绝对随机性,但是现实采样的随机性非常困难。
随机采样不适合考察子类别情况。缺乏延展性,数据不可以重新分析以实现计划之外的目的。
【case4】乔布斯的癌症治疗
对自身所有DNA和肿瘤DNA进行排序。得到整个基因密码的数据文档。
全数据模式,样本=总体
采样的目的:用最少的数据得到最多的信息。
【case5】谷歌流感趋势预测
不是依赖于对随机样本的分析,而是分析了整个美国几十亿条互联网搜索记录。
【case6】xoom与跨境汇款异常交易报警
检查所有数据,找出样本分析法错过的信息
无论是针对一个小团体还是整个社会,多样性是有额外价值的。
统计抽样,在技术受限的特定时期,解决当时存在的一些特定问题而产生。
网友评论