使用sklearn轻松实现数据转换

作者: 朱卫军AI_Python | 来源:发表于2020-04-25 18:24 被阅读0次

使用sklearn轻松实现数据转换
用 sklearn 实现降维
博客收藏
Sklearn学习笔记（三）
使用sklearn来实现决策树建模
降维算法——PCA对人脸识别数据集的降维
机器学习系列（二十一）——PCA降噪与人脸识别
使用sklearn做单机特征工程
2019-01-07特征工程文章
线性回归--sklearn框架实现

机器学习在建模之前，需要做数据准备。数据准备的过程主要包括3个步骤：

数据选择
数据预处理
数据转换

本文会告诉你两种方法，即如何使用Python的Scikit-Learn库进行简单的数据转换。

一、数据缩放

你的预处理数据集中可能包含各种各样、不同比例的特征字段，比如美元、千克、价格，有的特征列数值范围在100以内，有的却达到几百万，差异很大。

很多机器学习模型不希望有这样大的差异，如果数据集各个属性之间的数值差异越小，则模型表现的会越好。这里不一概而论，具体原因小伙伴们自行探索下。

方法1：数据归一化

数据归一化是指将原始数据缩放到0和1之间。

对于依赖于值的大小的模型，这种对输入属性的缩放很管用。比如在K近邻模型的距离测量和回归系数的准备。

接下来用都知道的鸢尾花数据集演示数据归一化：

# 对鸢尾花数据集进行数据归一化处理.
from sklearn.datasets import load_iris
from sklearn import preprocessing
# 加载数据
iris = load_iris()
print(iris.data.shape)
# 分离原始数据集，分为自变量和因变量
X = iris.data
y = iris.target
# 归一化处理
normalized_X = preprocessing.normalize(X)

更多关于归一化处理，详见API

方法2：数据标准化

数据标准化是指：将数据缩放，改变每个属性的分布，使其平均值为0，标准差为1。

诸如高斯过程等依赖于特征分布的模型，对特征进行标准化是非常有用的。

依然用鸢尾花的例子：

# 对鸢尾花数据集进行数据标准化处理.
from sklearn.datasets import load_iris
from sklearn import preprocessing
# 加载数据
iris = load_iris()
print(iris.data.shape)
# 分离原始数据集，分为自变量和因变量
X = iris.data
y = iris.target
# 标准化处理
standardized_X = preprocessing.scale(X)

更多关于归一化处理，详见API

二、说明

很难知道数据缩放是否会有利于模型的效果，大概率上是有用的，但不排除出现产生负效果。

中肯的建议是，先建立一个数据缩放后的副本，使用你的算法模型测试对比缩放前后的效果。

这可以让你快速知道，你的模型中缩放带来的好处或弊端。

你也可以试用不同的缩放方法，进行对比。

三、总结

数据缩放是一种非常重要的数据转换方法。

本文介绍了归一化和标准化两种方法，均用Python Scikit-Learn库提供的方法实现。简单好用，快试试吧！

网友评论

Python

本文标题：使用sklearn轻松实现数据转换

本文链接：https://www.haomeiwen.com/subject/ccbjihtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

使用sklearn轻松实现数据转换

一、数据缩放

二、说明

三、总结

相关文章