美文网首页
pd.get.dummies()哑变量

pd.get.dummies()哑变量

作者: 数据分析成长记 | 来源:发表于2020-05-16 18:54 被阅读0次

在拿到的数据里,经常有分类型变量的存在,如下:

球鞋品牌:Nike、adidas、 Vans、PUMA、CONVERSE

性别:男、女

颜色:红、黄、蓝、绿

However,sklearn大佬不能直接分析这类变量呀。在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是算法关键部分,而常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。于是,我们要对这些分类变量进行哑变量处理,又或者叫虚拟变量。

缺点:

当类别的数量很多时,特征空间会变得非常大。在这种情况下,一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。有些基于树的算法在处理变量时,并不是基于向量空间度量,数值只是个类别符号,即没有偏序关系,所以不用进行独热编码。Tree Model不太需要one-hot编码: 对于决策树来说,one-hot的本质是增加树的深度。

In summary,

要是one hot encoding的类别数目不太多,可优先考虑。

对分类型变量,进行编码处理——pd.get_dummies()、LabelEncoder()、oneHotEncoder() - 喜欢吃面的Hush - 博客园

特征提取之pd.get_dummies() - 简书

相关文章

网友评论

      本文标题:pd.get.dummies()哑变量

      本文链接:https://www.haomeiwen.com/subject/voyrohtx.html