在数据分析中,了解数据是分析者首先需要做的事情,这里的数据指的是总体数据,而非样本数据,因为了解总体才有普遍性和意义。如何了解总体数据呢?推断性数据分析理论能够解决这个问题,用样本数据来推断总体数据。
参数(均值、中位数、方差、标准差、峰度和偏度等等)是了解数据的窗口,因为这些参数能够将数据的特征量化。数据的特征可以分成三个维度来描述:集中趋势、离散程度和分布形态,每个维度都有相应的参数来表示它们。推断性统计分析理论的任务就是用样本数据的参数来推断出总体数据的参数。这就是参数方法的分析逻辑。
参数方法其实有很多限制,往往假设数据总体服从某些特定分布,例如正态分布,这是因为用样本参数推断总体参数,这个推断过程的桥梁是各种抽样分布,而基本上所有的抽样分布都是基于总体数据服从正态分布这个前提条件得出的。因此,如果数据总体的概率分布情况未知或不服从正态分布,要通过两个样本数据比较它们两个数据总体的差异,参数方法(比较总体参数间差异,例如均值)是缺乏理论假设基础的,分析结果可想而知是不准确的。此时,可以通过非参数检验的方法,比较数据总体间的概率分布差异或秩次差异来说明数据总体之间的差异情况。
网友评论