机器学习第二课_数据预处理

作者: 素心似锦 | 来源:发表于2020-03-14 11:11 被阅读0次

100天搞定机器学习|Day2简单线性回归分析
机器学习笔记
2019-02-17
2、机器学习系统搭建流程
【译Py】2018年，这5个数据科学项目能帮你找到工作
机器学习入坑指南（二）：数据预处理
100天写机器学习代码
【2019-07-16】机器学习基础
Python数据挖掘与机器学习技术入门实战
机器学习--数据预处理

数值型特征分箱（数据离散化）

2.1 无监督分箱法

等距分箱

import pandas as pd

df = pd.DataFrame([[22,1],[13,1],[33,1],[52,0],[16,0],[42,1],[53,1],[39,1],[26,0],[66,0]],columns=['age','Y'])

df['age_bin_2'] = pd.cut(df['age'],3) #新增一列存储等距划分的分箱特征

display(df)

等频分箱

import pandas as pd

df = pd.DataFrame([[22,1],[13,1],[33,1],[52,0],[16,0],[42,1],[53,1],[39,1],[26,0],[66,0]],columns=['age','Y'])

df['age_bin_1'] = pd.qcut(df['age'],3) #新增一列存储等频划分的分箱特征

display(df)

聚类分箱

基于k均值聚类的分箱：k均值聚类法将观测值聚为k类，但在聚类过程中需要保证分箱的有序性：第一个分箱中所有观测值都要小于第二个分箱中的观测值，第二个分箱中所有观测值都要小于第三个分箱中的观测值，等等。

from sklearn.cluster import KMeans

kmodel=KMeans(n_clusters=k) #k为聚成几类

kmodel.fit(data.reshape(len(data),1))) #训练模型

c=pd.DataFrame(kmodel.cluster_centers_) #求聚类中心

c=c.sort_values(by=’列索引') #排序

w=pd.rolling_mean(c,2).iloc[1:] #用滑动窗口求均值的方法求相邻两项求中点，作为边界点

w=[0] +list(w[0] + [ data.max() ] #把首末边界点加上

d3= pd.cut(data,w,labels=range(k)) #cut函数

2.2 二值化

对定量特征二值化（对列向量处理)

from sklearn.preprocessing import Binarizer

#二值化，阈值设置为3，返回值为二值化后的数据 ;>3显示为1，否则为0

print(iris.data)

Binarizer(threshold=3).fit_transform(iris.data)

对定性特征哑编码（对列向量处理）