美文网首页
数据标准化

数据标准化

作者: _Megamind_ | 来源:发表于2017-07-16 17:06 被阅读0次

一 、Z-Score 标准化

公式:$ \frac{x - x.mean}{x.std}$

即:将数据按其属性(列)减去对应属性的均值,再除以方差

【得到的结果对于每个属性(列)来说所有数据都聚集在 $ \color{red}{0} $ 附近,方差为 $ \color{red}{1} $ 】

  • 使用sklearn.preprocessing()
from sklearn import preprocessing
scaled = preprocessing.scale(data)
  • 使用sklearn.preprocessing.StandardScaler类

使用该类可以保存训练集中的参数(均值,方差),可以直接使用其对象转换测试集数据

from sklearn.preprocessing import StandardScaler
scaler = StandradScaler().fit(train_data)
# 查看数据的均值
# scaler.mean_
# 查看数据的方差
# scaler.std_
# 直接对测试集进行转换
scaler.transform(test_data)

二 、0-1 标准化

也叫离差标准化,是对原始数据进行线性变换,使其结果落在[0,1]区间内

公式:$ \tilde{a} = \frac{x-x.min}{x.max-x.min} $

  • 可以通过sklearn.preprocessing.MinMaxScaler类实现
from sklearn.preprocessing import MinMaxScaler
min_max_scaler = MinMaxScaler()
train_scaled = min_max_scaler.fit_transform(train_data)
# 同样的缩放应用到测试集数据中
test_scaled = min_max_scaler.transform(test_data)
# 查看缩放因子
# min_max_scaler.scale_

三 、正态分布化(Normalization)

Normalization用来将各个样本归一化为norm为1的正态分布。

  • 该方法是 $ \color{red}{文本分类} $ 和 $ \color{red}{聚类分析} $ 中经常使用的向量空间模型(SVM)的基础
  • Normalization 主要思想是对每个样本计算其p-范数,然后对该样本中每个元素除以该范数,这样处理的结果是使得每个处理后的样本的p-范数等于1
  • sklearn.preprocessing.normalize()
from sklearn.preprocessing import normalize
data_normalized = normalize(data,norm = 'l2')
# data_normalized = normalize(data,norm = 'l1')

相关文章

  • 数据标准化.归一化处理

    数据的标准化 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行...

  • 机器学习面试题

    1. 什么是数据标准化,为什么要进行数据标准化? 我认为这个问题需要重视。数据标准化是预处理步骤,将数据标准化到一...

  • 数据标准化的性质及用处

    什么是数据标准化 ? 为什么要标准化 ? 标准化有什么好处 ? 1. 什么是数据标准化 ? 标准化后的变量 满足...

  • 均一化和标准化

    数据的标准化(normalization)和归一化 数据的标准化(normalization) 将数据按比例缩放,...

  • 数据分析之数据标准化

    在数据分析之前,我们通常需要先将数据标准化(normalization),数据标准化也就是统计数据的指数化。 数据...

  • 2018-01-08

    "R语言学习笔记之数据标准化" 数据标准化/归一化 数据标准化是将数据按比例缩放,使之落入一个小的特定区间。在某些...

  • MYSQL数据库字段命名及设计规范

    1.设计原则 1) 标准化和规范化 数据的标准化有助于消除数据库中的数据冗余。标准化有好几种形式,但 Third ...

  • 2.使用tensorflow 2.0_keras 搭建分类模型

    导入库 运行结果 加载数据 运行结果 标准化数据 为何标准化,在以前的一篇文章中,已经讲过。一般深度学习都要标准化...

  • RNA-seq下游分析(2)-数据过滤及标准化

    以下对数据进行标准化

  • 归一化(标准化)相关问题

    1. 数据标准化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比...

网友评论

      本文标题:数据标准化

      本文链接:https://www.haomeiwen.com/subject/mdpbhxtx.html