什么是数据的二值化有什么用?
特征的二值化是指将数值型的特征数据转换成布尔型的值,可以使用类Binarizer
默认是根据0来二值化,大于0的都标记为1,小于等于0的标记为0
根据阈值将数值型转变为二进制型 (阈值threshold=n, 小于等于n的数值转为0, 大于n的数值转为1),另外只能对数值型数据进行处理,且传入的参数必须为2D数组,也就是不能是Series这种类型,shape为(m,n)而不是(n,)类型的数组.
代码实现:
import pandas as pd
import numpy as np
import sklearn.preprocessing as sp
# 写一个矩阵
mat = np.array([
[2,4,6,-3],
[4,6,8,-4],
[6,-4,3,-1]
],dtype='float')
bin = sp.Binarizer(threshold=2)
new_mat = bin.transform(mat)
new_mat#大于三的返回1,小于的返回0
print('new_mat')
image.png
希望对大家有帮助,这只是回一个案例!
网友评论