什么是Z-score?有哪些使用场景？

作者: Z_bioinfo | 来源:发表于2022-05-14 15:57 被阅读0次

Z-score (z值, z分数，标准分数)

1.什么是 Z-score

image.png

Z值（z-score，z-values, normal score）又称标准分数（standard score, standardized variable），是一个实测值与平均数的差再除以标准差的过程。Z score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z score分值进行比较。

用公式表示为：

z=(x-μ)/σ

x为某实测值，μ为平均数，σ为标准差

Z值的量代表着实测值和总体平均值之间的距离，是以标准差为单位计算。

大于平均数的实测值会得到一个正数的Z值，小于平均数的实测值会得到一个负数的Z值。

一句话：

Z score通过（x-μ）/σ将两组或多组数据转化为无单位的Z score分值，使得数据标准统一化，提高了数据可比性，削弱了数据解释性。

image.png

2.Z score的定义

Z score处理方法处于整个框架中的数据准备阶段。也就是说，它是数据预处理阶段中的重要步骤。

数据分析与挖掘中，很多方法需要样本符合一定的标准，如果需要分析的诸多自变量不是同一个量级，就会给分析工作造成困难，甚至影响后期建模的精准度。

举例来说，假设我们要比较A与B的考试成绩，A的考卷满分是100分（及格60分），B的考卷满分是700分（及格420分）。很显然，A考出的70分与B考出的70分代表着完全不同的意义。但是从数值来讲，A与B在数据表中都是用数字70代表各自的成绩。

那么如何能够用一个同等的标准来比较A与B的成绩呢？Z-Score就可以解决这一问题。

下图描述了Z-Score的定义以及各种特征。

3.Z-score的目的

如上图所示，Z-score的主要目的就是将不同量级的数据统一转化为同一个量级，统一用计算出的Z-score值衡量，以保证数据之间的可比性。Z值可以告诉我们整个数据相对于总体平均值的位置。Z 分数越高或越低，结果就越不可能偶然发生，结果就越有可能有意义。

4.Z-score的理解与计算

在对数据进行Z-score标准化之前，我们需要得到如下信息：

1）总体数据的均值（μ）

 在上面的例子中，总体可以是整个班级的平均分，也可以是全市、全国的平均分。

2）总体数据的标准差（σ）

 这个总体要与1）中的总体在同一个量级。

3）个体的观测值（x）

在上面的例子中，即A与B各自的成绩。

通过将以上三个值代入Z-score的公式，即：

我们就能够将不同的数据转换到相同的量级上，实现标准化。

重新回到前面的例子，假设：A班级的平均分是80，标准差是10，A考了90分；B班的平均分是400，标准差是100，B考了600分。

通过上面的公式，我们可以计算得出，A的Z-score是1（（90-80）/10），B的Z-score是2（（600-400）/100）。因此B的成绩更为优异。

反之，若A考了60分，B考了300分，A的Z-Score是-2，B的Z-Score是-1。因此A的成绩更差。

因此，可以看出来，通过Z-score可以有效的把数据转换为统一的标准，但是需要注意，并进行比较。Z-score本身没有实际意义，它的现实意义需要在比较中得以实现，这也是Z-score的缺点之一。

image.png

5.Z-score的优缺点

Z-score最大的优点就是简单，容易计算，很多工具中，比如R，不需要加载包，仅仅凭借最简单的数学公式就能够计算出Z-score并进行比较。此外，Z-score能够应用于数值型的数据，并且不受数据量级的影响，因为它本身的作用就是消除量级给分析带来的不便。

但是Z-score应用也有风险。首先，估算Z-score需要总体的平均值与方差，但是这一值在真实的分析与挖掘中很难得到，大多数情况下是用样本的均值与标准差替代。其次，Z-score对于数据的分布有一定的要求，正态分布是最有利于Z-score计算的。最后，Z-score消除了数据具有的实际意义，A的Z-score与B的Z-score与他们各自的分数不再有关系，因此Z-score的结果只能用于比较数据间的结果，数据的真实意义还需要还原原值。

image.png

6.Z-score的应用实例

假设国家女排队员身高平均值1.94米，标准差0.2（标准差代表了不同队员身高值的差异程度，又称为变异度）。某天，有一位身高1.2米的女子提出想申请加入国家队，我们如何衡量这名女子与国家女排队员的身高差异程度呢？

第一，这名女子的身高离女排队的平均身高相差有多远？

实测值-平均值=1.2-1.94=-0.74（米）

第二，上述差值（-0.74米）是一个数值，在国家队中这个差别是什么概念，能否量化？我们已知国家女排队员身高的差异程度是标准差，那如果我们计算出上述差值是标准差的多少倍，就可以用来表达这个差值的变异程度。

实测值-平均值/标准差=-0.74/0.2=-3.7（倍）

这里的-3.7就是Z值。同理，一名身高2.6米的女子申请加入国家女排队，她的身高Z值为3.3。

为什么大多数指标均要求正常Z值区间为[-3,3]呢？这是一个纯统计学问题，大家记住即可：

Z值落在区间[-3,3]，我们所测值在总群体的发生概率为99.7%，超出这个区间的概率为0.3%。

所以，上面例子中1.2米和2.6米身高的两名女子出现在国排队的概率均小于0.3%，均不满足身高要求。事实上，国家女子排队的身高Z值区间标准可能更小，如[-0.5，0.5]。

image.png

网友评论

本文标题：什么是Z-score?有哪些使用场景？

本文链接：https://www.haomeiwen.com/subject/drfmurtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

什么是Z-score?有哪些使用场景？

1.什么是 Z-score

2.Z score的定义

3.Z-score的目的

4.Z-score的理解与计算

5.Z-score的优缺点

6.Z-score的应用实例

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

生信

R统计编程