Kolmogorov-Smirnov检验(K-S检验)是一种用于检验两个样本分布是否来自同一总体分布的非参数统计方法。该检验基于样本的累积分布函数(CDF)的差异来进行判断。这检验的原理如下:
假设我们有两个样本,分别来自两个未知分布。我们想要知道这两个样本是否来自同一分布。K-S检验的基本思想是比较两个累积分布函数之间的最大垂直差距。
以下是K-S检验的步骤:
计算累积分布函数(CDF):对每个样本,首先按升序排列数据,然后计算每个数据点的累积百分比。这将得到两个累积分布函数,分别对应两个样本。
计算CDF的差异:对于每个数据点,计算两个样本的累积分布函数之间的垂直差距(绝对值)。这些差距的最大值即为K-S统计量(D)。
计算临界值:K-S检验需要一个临界值,该值与所选的显著性水平(通常是0.05或0.01)和样本大小有关。这个临界值可以从K-S分布表中查得。
判断:比较计算得到的K-S统计量和临界值。如果K-S统计量小于临界值,则我们不能拒绝原假设,即认为两个样本来自同一分布;如果K-S统计量大于临界值,则我们拒绝原假设,认为两个样本来自不同的分布。
总体来说,K-S检验是一种在不需要知道样本分布类型的情况下检验两个样本是否来自同一分布的有用方法。它对于非参数检验和对分布形状不做假设的情况非常有用。
样本 A:3,4,6,8,9,10,11,13,15
样本 B:2,5,7,8,11,12,14,15,16,17
下面是进行K-S检验的步骤:
排序并计算累积分布函数(CDF):
对于样本 A:
对于样本 B:
计算临界值:
以所选的显著性水平(例如,0.05)和样本大小(m和n)为基础查找临界值。在这个例子中,我们可以使用K-S分布表或软件工具来找到临界值。
判断:
比较计算得到的K-S统计量和临界值。如果K-S统计量小于临界值,则不能拒绝原假设,即认为两个样本来自同一分布。如果K-S统计量大于临界值,则拒绝原假设,认为两个样本来自不同的分布。
网友评论