在说明这个问题之前,我们先来回顾一下历史。在之前的很长时间里,人们为了对一个大的样本进行分析的办法是抽样调查法。在过去的时代,生产力低下的原因使得人们无法对一个大样本进行全面的分析。统计学就是在这种情况下兴起的,随着统计学的发展,人们逐渐的发现在绝对随机的情况下,使用抽查调查的方法,是可以反映样本的情况的。
抽样调查的是在没有处理大量数据的能力的时候必然的一种选择,在漫长的时间里,大家逐渐发现这种调查方式存在着许多不足。首先,抽样调查的准确性过分的依赖随机性,如果抽样的时候选择的样本不够随机,所调查的结果可能与实际情况有着非常大的出入。其次,如果对样本进行细分,细分后的样本是不能反映细分后所代表的总体的。比如,如果要统计一个地区的人对某项政策的看法,假设统计1000人,我们在这其中细分出“爱吃蛋糕的女人”这一群体,这种细分的样本数目会很少,根本不能代替整个地区的“爱听懂蛋糕的女人”对这一政策的看法。还有,随机抽样的抽样方法都是针对所调查的问题进行专门设计的,如果我现在要调查另一个问题,随机抽样就无能为力了。
而全面的调查就避免了以上的种种问题,它不但精确的回答了所要调查的问题,而是还可能发现其它的问题。而这种使用“样本=总体”的全数据模式就是大数据,大数据的大不是绝对的大,这是一种相对的大,指的是所收集的数据占据全部数据的很大一部分,甚至就是全部数据。
随着技术的发现,现在全面的数据分析不仅仅是政府和大企业的才能使用的方法。许多小的公司也可以采用大数据的分析方式,但是,许多人的思维依旧停留在随机采样的模式里。在某些特点的情况下,我们使用样本分析法是可以的,但这已经不再是我们分析数据的主要方式。慢慢地,样本分析的方式会被人们所抛弃。
更多精彩内容请关注公众号:坚持读书笔记
网友评论