one-hot encoding独热编码
对于离散变量,每一个取值只会使得一种状态处于“激活态”,也就是说这N种状态中只有一个状态位值为1
dummy encoding哑变量编码
任意的将一个状态位去除
ps:1、Series里的整数会按照one-hot进行编码,但是在DataFrame里面不会
2、特征的维度数量会有所增加
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)[source]
参数
data : array-like, Series, or DataFrame 输入的数据
prefix : string, get_dummies转换后,列名的前缀,默认为None
columns : 指定需要实现类别转换的列名 否则转换所有类别性的列
dummy_na : bool, default False 增加一列表示空缺值,如果False就忽略空缺值
drop_first : bool, default False 获得k中的k-1个类别值,去除第一个,防止出现多重共线性
参考与详细
官方文档 https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html
简 书 https://www.jianshu.com/p/5f8782bf15b1
博 客 https://blog.csdn.net/maymay_/article/details/80198468
博 客 https://blog.csdn.net/qq_43404784/article/details/89486442
感谢!
网友评论