美文网首页
sklearn的常用函数以及参数——4. 数据预处理

sklearn的常用函数以及参数——4. 数据预处理

作者: 博士伦2014 | 来源:发表于2018-12-09 19:09 被阅读0次

数据预处理

from sklearn.preprocessing import scale
import numpy as np
x = np.array([[1., -1., 2.],
              [2., 0., 0.],
              [0., 1., -1.]])
 
# 将每一列特征标准化为标准正太分布,注意,标准化是针对每一列而言的
x_scale = scale(x)
x_scale.mean(axis=0)
x_scale.mean(axis=1)
x_scale.std(axis=0)
 

preprocessing这个模块还提供了一个实用类StandarScaler,它可以在训练数据集上做了标准转换操作之后,把相同的转换应用到测试训练集中。

from sklearn.preprocessing import StandardScaler
# 调用fit方法,根据已有的训练数据创建一个标准化的转换器
scaler = StandardScaler().fit(x)
# 使用上面这个转换器去转换训练数据x,调用transform方法
scaler.transform(x)
 
 
# 规模化特征到一定的范围内
from sklearn.preprocessing import MinMaxScaler
min_max_scaler = MinMaxScaler()
x_minmax = min_max_scaler.fit_transform(x)
 
 
# MaxAbsScaler

原理与上面的很像,只是数据会被规模化到[-1,1]之间。 也就是特征中,所有数据都会除以最大值。这个方法对那些已经中心化均值为0或者稀疏的数据有意义。

from sklearn.preprocessing import MaxAbsScaler
max_abs_scaler = MaxAbsScaler()
x_train_maxsbs = max_abs_scaler.fit_transform(x)
 
# 正则化Normalization

正则化是将样本在向量空间模型上的一个转换,经常被使用在分类与聚类中。函数normalize提供了一个快速简单的方式在一个单向量上来实现正则化的功能

from sklearn.preprocessing import normalize
x_normalized = normalize(x, norm='l2')
 
from sklearn.preprocessing import Normalizer
# 根据训练数据创建一个正则器
normalizer = Normalizer().fit(x)
# 对训练数据进行正则
normalizer.transform(x)
 
#  二值化–特征的二值化
from sklearn.preprocessing import Binarizer
binarizer = Binarizer().fit(x)
binarizer.transform(x)

相关文章

网友评论

      本文标题:sklearn的常用函数以及参数——4. 数据预处理

      本文链接:https://www.haomeiwen.com/subject/bfykhqtx.html