针对小伙伴们有关无量纲化处理的提问

作者: spssau | 来源:发表于2023-03-15 10:55 被阅读0次

针对小伙伴们有关无量纲化处理的提问
可能是最全的数据标准化教程（附python代码）
sklearn学习 — 归一化
数据预处理
机器学习之归一化
数据归一化方法
数据的预处理
特征工程完全总结（Python源码）
转载--特征工程
特征工程

针对小伙伴们有关无量纲化处理的提问，今天将常用的无量纲化处理方法进行一个汇总说明，SPSSAU提供17种数据无量纲化处理方法，如下图：

一、无量纲化

1、定义

无量纲化，也称为数据的标准化、规范化，是指不同指标之间由于量纲不同导致的不具有可比性，所以需要先进行无量纲化处理；它是通过数据变换来消除原始变量的量纲影响的方法；消除量纲影响后再进行后续分析。

2、解释说明

例如：某市医院建设投入金额为5千万，最终出院率为92%。那么在同时使用这两个指标比如根据距离计算优劣时，会出现两个问题——单位问题和方向问题。

单位问题：从数量级上来看，5千万与92%二者之间相差很大。

方向问题：从数据方向来看，希望投入越低越好，出院率越高越好，二者方向不一致。

如果不解决数据的单位问题和方向问题，那么数据之间是不具有可比性的。故需要将指标进行无量纲化处理后，再进行接下来的分析。
17种无量纲化处理方法，对于单位问题和方向问题处理有所差异。例如标准化能够解决单位问题，不能够解决方向问题；各类处理方式对比如下表：

二、无量纲化方法选择

在研究时具体应该使用哪一种处理方式呢，其实并没有固定的要求，而是结合实际情况或者实际研究进行。

比如熵值法计算权重时，通常需要处理数据的方向问题，可以使用正向化、逆向化处理方式；但对于数据的单位问题，可以处理也可以不处理，对于分析并没有太大影响，如果要处理可以选择归一化处理方式。

常用分析方法的无量纲化处理方式对比如下表：

如果单独想对数据量纲进行处理，那么通常默认是使用标准化或者归一化最多，标准化直接把数据压缩且数据有一种特质即平均值为0标准差为1的特质；归一化把数据压缩在 [0,1] 之间。也或者使用中心化让数据有一种特质即平均值为0。

三、SPSSAU无量纲化处理

使用SPSSAU进行无量纲化处理，位于SPSSAU数据处理->【生成变量】

可批量选中需要进行无量纲化处理的指标，选择相应无量纲化处理方法，确认处理即可完成。

四、17种无量纲处理方法说明

SPSSAU共提供17种无量纲化处理方法，其中比较常用的比如：标准化、中心化、归一化、均值化、正向化、逆向化等等；汇总说明如下表：

备注：表格中，X表示某数据，Mean表示平均值，Std表示标准差；Min表示最小值，Max表示最大值，Sum表示求和，Sqrt表示开根号；接下来将逐个进行说明。

1、标准化（S）

计算公式为：（X-Mean）/ Std
标准化是一种最为常见的量纲化处理方式。此种处理方式会让数据呈现出一种特征，即数据的平均值一定为0，标准差一定是1。针对数据进行了压缩大小处理，同时还让数据具有特殊特征（平均值为0标准差为1）。
在很多研究算法中均有使用此种处理，比如聚类分析前一般需要进行标准化处理，也或者因子分析时默认会对数据标准化处理。
除此之外，还有一些特殊的研究方法，比如社会学类进行中介作用，或者调节作用研究时，也可能会对数据进行标准化处理。

2、中心化（C）

计算公式为：X - Mean
中心化这种量纲处理方式可能在社会科学类研究中使用较多，比如进行中介作用，或者调节作用研究。此种处理方式会让数据呈现出一种特征，即数据的平均值一定为0。针对数据进行了压缩大小处理，同时还让数据具有特殊特征（平均值为0）。
平均值为0是一种特殊情况，比如在社会学研究中就偏好此种量纲处理方式，调节作用研究时可能会进行简单斜率分析，那么平均值为0表示中间状态，平均值加上一个标准差表示高水平状态；也或者平均值减一个标准差表示低水平状态。

3、归一化(MMS)

计算公式为：（X - Min）/ (Max - Min)
归一化的目的是让数据压缩在 [0,1] 范围内，包括两个边界数字0和数字1；当某数据刚好为最小值时，则归一化后为0；如果数据刚好为最大值时，则归一化后为1。归一化也是一种常见的量纲处理方式，可以让所有的数据均压缩在 [0,1] 范围内，让数据之间的数理单位保持一致。

4、均值化(MC)

计算公式为：X / Mean

均值化在综合评价时有可能使用，比如进行灰色关联法研究时就常用此种处理方式；需要特别说明一点是，此种处理方式有个前提，即所有的数据均应该大于0，否则可能就不适合用此种量纲方式。

5、正向化（MMS）

计算公式为：（X - Min）/ (Max - Min)。

正向化的目的是对正向指标保持正向且量纲化。比如GDP增长率、科研产出数量这两个指标；GDP增长率、科研产出数量是数字越大越好。正向化的目的就是让数字越大越好的意思，而且同时其还让数据压缩在 [0,1] 范围内即进行了量纲处理。

当某数据刚好为最小值时，则归一化后为0；如果数据刚好为最大值时，则归一化后为1。正向化和归一化的公式刚好完全相等，但正向化强调让数字保持越大越好的特性且对数据单位压缩，而归一化仅强调数字压缩在 [0,1] 之间。正向化的使用情况为：当指标中有正向指标，又有负向指标时；此时使用正向化让正向指标全部量纲化；也或者指标全部都是正向指标，让所有正向指标都量纲化处理。

6、逆向化（NMMS）

计算公式为：（Max - X）/ (Max - Min)

逆向化的目的是对逆向指标正向且量纲化。比如失业率这个指标；失业率是数字越小越好。逆向化的目的就是让数字越小越好的意思，而且同时其还让数据压缩在 [0,1] 范围内即进行了量纲处理。

从公式就可以看出，分母永远是大于0，随着X的增大，分子会越来越小，那么就对逆向指标逆向化处理之后就会得到一个这样的特征，即数字越大越好（数字越大时，其实X是越小）。

相当于将逆向指标逆向化后，新的数据为数字越大越好，这样便于进行方向的统一，尤其是在指标同时出现正向指标和逆向指标时，针对逆向指标进行逆向处理，是非常常见的处理方式。

7、适度化（M）

其计算公式为：-|X-K|

适度化其目的是让K适度系数值作为参考标准，比如K=1，其意义为数字越接近于1，适度化后数字越大，适度化处理后数字均小于等于0，但越接近0说明其离K值越近；

8、区间化（Interval））

其计算公式为：

区间化的目的是让数据压缩在 [a,b] 范围内，a和b是自己希望的区间值，如果a=0,b=1，那么其实就是一种特殊情况即归一化；

此公式会让数据永远的保持在 [a,b] 之间，SPSSAU默认a为1，b为2，即将数据压缩在 [1,2] 之间，当然研究者根据需要进行设置即可。它的目的仅仅是对数据进行压缩在固定的区间，保持数据数理单位的一致性。

9、初值化（Init）

计算公式为：X / 该列第1个不为空的数据

初值化在综合评价时有可能使用，比如进行灰色关联法研究时就常用此种处理方式；即以数据中第1个不为空的数据作为参照标准，其余的数据全部去除以该值。

比如说2000，2001，2002，2003，一直到2022共计23年的GDP数据，第1个数据就是2000年的GDP，所有的数据都去除以2000年的GDP，相当于以2000年GDP作为参照标准，所有数据全部除以2000年的GDP（包括2000年GDP除以自己得到数字1）。

一般来说，初值化这种处理方式适用于有着一种趋势或规律性的数据，比如上述2000~2022年的GDP等，而且数据正常情况下都是全部大于0，因为出现负数，通常会失去其特定意义。

10、最小值化（MinS）

其计算公式为：X / Min

最小值化其目的是让最小值作为参照标准，所有的数据全部除以最小值；

需要特别说明一点是，此种处理方式时一般都是要求数据全部大于0，否则可能就不适合用此种无量纲化处理方式。

11、最大值化（MaxS）

计算公式为：X / Max

最大值化其目的是让最大值作为参照标准，所有的数据全部除以最大值；即以最大值作为单位，全部数据全部去除以最大值。

需要特别说明一点是，此种处理方式时一般都是要求数据全部大于0，否则可能就不适合用此种无量纲化处理方式。

12、求和归一化（SN）

计算公式为：X / Sum（X）

求和归一化其目的是让‘求和值’作为参照标准，所有的数据全部除以求和值，得到的数据相当于为求和的占比。

需要特别说明一点是，此种处理方式时一般都是要求数据全部大于0，否则可能就不适合用此种无量纲化处理方式。TOPSIS法的时候使用此种处理方式较多。

13、平方和归一化（SSN）

计算公式为：X / Sqrt（Sum（X^2））

平方和归一化其目的是让 ‘ 平方和值 ’ 作为参照标准，所有的数据全部除以平方和值，得到的数据相当于为平方和的占比。

需要特别说明一点是，此种处理方式时一般都是要求数据全部大于0，否则可能就不适合用此种量纲方式。TOPSIS法的时候使用此种处理方式较多。

14、固定值化(CloseFixedValue）

计算公式为：

固定值化其目的是让某一固定值FixedValue作为标准；比如固定值为10，则分母为一定值——代表所有数据离10的最远距离。固定值化的实际意义为离10的相对距离（处理后数字越大越接近，数据越小越远离），经过固定值化处理，使数据压缩在 [0,1] 之间，0代表远离10，1代表刚好为10。固定值化时离固定值FixedValue越近越好。

15、偏固定值化(OffFixedValue）

计算公式为：

偏固定值化其目的是让某一固定值FixedValue作为标准；比如固定值为10，固定值化的实际意义为离10的相对距离（处理后数字越大越远离，数据越小越接近），经过固定值化处理，使数据压缩在 [0,1] 之间，0代表刚好为10，1代表远离10。偏固定值化时离固定值FixedValue越远越好。

16、近区间化(CloseInterval)

计算公式为：

近区间化其目的是让某一区间（p，q）作为标准，属于该区间的数值取数字1，不属于的进行近区间化处理，近区间化时离（p，q）区间越近越好。

17、偏区间化(OffInterval)

其计算公式为：

偏区间化其目的是让某一区间（p，q）作为标准，属于该区间的数值取数字1，不属于的进行偏区间化处理，偏区间化时离（p，q）区间越远越好。

针对小伙伴们有关无量纲化处理的提问
针对小伙伴们有关无量纲化处理的提问，今天将常用的无量纲化处理方法进行一个汇总说明，SPSSAU提供17种数据无量纲...
可能是最全的数据标准化教程（附python代码）
什么是数据标准化（归一化）数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲...
sklearn学习 — 归一化
线性归一化数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况...
数据预处理
总数据预处理包括数据清洗、无量纲化、特征分桶、统计变换和特征编码等步骤，数据清洗无量纲化说明一般而言，原...
机器学习之归一化
数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据...
数据归一化方法
数据标准化（归一化）处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据...
数据的预处理
平滑处理数据的标准化变换对于多元数据，当各变量的量纲和数量级不一致时，往往需要对数据进行变换处理，以消除对量纲...
特征工程完全总结（Python源码）
目录1 特征工程是什么？2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 ...
转载--特征工程
目录 1 特征工程是什么？2 数据预处理2.1 无量纲化2.1.1 标准化2.1.2 区间缩放法2.1.3 标准化...
特征工程
目录 1 特征工程是什么？2 数据预处理2.1 无量纲化2.1.1 标准化2.1.2 区间缩放法2.1.3 标准化...