美文网首页数据分析数据分析教程
数据分析基础—4.1 数据抽样

数据分析基础—4.1 数据抽样

作者: 数极客用户行为数据分析 | 来源:发表于2018-06-23 10:06 被阅读9次

           在数据收集过程中,利用数据的全体进行分析,还是采集其中的一部分作为样本进行分析,要根据业务需求来判断,采集特征数据的方式根据数据范围的不同分为普遍调查和抽样调查。

    普遍调查

           是对数据全体范围内的所有对象进行逐个调查,达到准确了解数据总体特征的方法。

           最典型的例子就是我国十年一次的全国人口普查项目。其优点是采集的数据准确、全面;缺点是成本高、效率相对较低。

    抽样调查

           是从全体数据中随机抽取一部分数据作为样本数据进行调查分析,从样本特征推断数据的总体特征。

           其优点是效率高而且成本低,缺点是其采集的数据存在偏差有时会影响分析结果的准确。

           常用的抽样方法有以下四种:

           1、简单随机抽样

           将全体数据进行编号,然后在总体数据中随机抽取一定数量的数据组成样本数据,即为简单随机抽样。适用于数据量较少的情况。

           例如:抽签或者抽奖活动,

           2、分层抽样

           如果目标数据可以被分为若干个互不重叠的部分(即分层),每个层中的数据具有相似的属性,那么可以按比例从各层随机抽取数据组成样本数据,即为分层抽样。

           例如:一所大学要对所有学生进行普通话水平进行调查评估。学生总数25000人,拟抽取样本500人,考虑学生主要来自六个方言区域,所以分成六个层(如学生来源占比10%、20%、15%、30%、15%、10%),每个层按比例分别抽取50人、100人、75人、150人、75人、50人,组成500人的样本数据。

           3、系统抽样

           又称为等距抽样,首先设定抽样间距为n,然后在前n个数据中抽取初始数据,再按顺序每隔n个单位选取一个数据组成样本数据,即为系统抽样。

           例如,设置抽样间距为20,初始数据从1到20个数据中随机抽取,假如抽取到第16个,那么每隔20个单位抽取一个数据进入样本,即为第16个、第36个、第56个、第76个……均被抽取进入样本数据中。

           4、整群抽样

           又称聚类抽样,是将全体数据拆分成若干个互不交叉、互不重复的群,每个群内的数据应尽可能具有不同属性,尽量能代表整体数据的情况,然后以群为单位进行抽样,称为整群抽样。

           例如:美国大选的民意调查一般采用整群抽样的方式,美国有50个州1个特区,每个州有很多个郡,选民的意愿与其所处的郡无关,因此每个郡都可以看作是整群抽样的一个群,对郡内每个选民进行意见收集。

           以上四种基本抽样方法都属于数据随机抽样,实际应用中常根据业务需求将整个抽样过程分为不同的阶段进行,来完成数据的采集任务。

    数极客是国内新一代用户行为分析平台,独创了6大转化率分析模型,在数据分析方面,首次提出拆分定量分析与定性分析方法,并且基于用户行为分析,提供了会员营销管理系统A/B测试工具两大解决方案,可以快速的实现数据驱动增长。

    作者:小明学数据

    链接:https://www.jianshu.com/p/9adb2792a1e6

    來源:简书

    简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

    相关文章

      网友评论

        本文标题:数据分析基础—4.1 数据抽样

        本文链接:https://www.haomeiwen.com/subject/yidryftx.html