one-hot与哑变量（dummy variable）

作者: AyyB | 来源:发表于2021-12-07 11:12 被阅读0次

one-hot与哑变量（dummy variable）
回归分析中的哑变量和虚拟变量
哑变量编码-python
回归拟合（三）——哑变量在预测篮球赛得分中的简单应用
机器学习之特征工程
虚拟变量
one-hot encoding
类别型特征-dummy variable,one-hot,种类变
one-hot encoding 与dummy encoding
Dummy Variable Trap in Regressio

one-hot encoding

关于one-hot编码的具体介绍，可以参考我之前的一篇博客，博客地址：特征提取方法: one-hot 和 IF-IDF。这里，不再详细介绍。one-hot的基本思想：将离散型特征的每一种取值都看成一种状态，若你的这一特征中有N个不相同的取值，那么我们就可以将该特征抽象成N种不同的状态，one-hot编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这N种状态中只有一个状态位值为1，其他状态位都是0。举个例子，假设我们以学历为例，我们想要研究的类别为小学、中学、大学、硕士、博士五种类别，我们使用one-hot对其编码就会得到：

dummy encoding

　　哑变量编码直观的解释就是任意的将一个状态位去除。还是拿上面的例子来说，我们用4个状态位就足够反应上述5个类别的信息，也就是我们仅仅使用前四个状态位 [0,0,0,0] 就可以表达博士了。只是因为对于一个我们研究的样本，他已不是小学生、也不是中学生、也不是大学生、又不是研究生，那么我们就可以默认他是博士，是不是。（额，当然他现实生活也可能上幼儿园，但是我们统计的样本中他并不是，^-^）。所以，我们用哑变量编码可以将上述5类表示成：

one-hot编码和dummy编码：区别与联系

　　通过上面的例子，我们可以看出它们的“思想路线”是相同的，只是哑变量编码觉得one-hot编码太罗嗦了（一些很明显的事实还说的这么清楚），所以它就很那么很明显的东西省去了。这种简化不能说到底好不好，这要看使用的场景。

总结：我们使用one-hot编码时，通常我们的模型不加bias项或者加上bias项然后使用L2正则化手段去约束参数；当我们使用哑变量编码时，通常我们的模型都会加bias项，因为不加bias项会导致固有属性的丢失。

选择建议：我感觉最好是选择正则化 + one-hot编码；哑变量编码也可以使用，不过最好选择前者。虽然哑变量可以去除one-hot编码的冗余信息，但是因为每个离散型特征各个取值的地位都是对等的，随意取舍未免来的太随意。

连续值的离散化为什么会提升模型的非线性能力？

　　简单的说，使用连续变量的LR模型，模型表示为公式（1），而使用了one-hot或哑变量编码后的模型表示为公式（2）

式中x1表示连续型特征，θ1，θ2，θ3分别是离散化后在使用one-hot或哑变量编码后的若干个特征表示。这时我们发现使用连续值的LR模型用一个权值去管理该特征，而one-hot后有三个权值管理了这个特征，这样使得参数管理的更加精细，所以这样拓展了LR模型的非线性能力。

这样做除了增强了模型的非线性能力外，还有什么好处呢？这样做了我们至少不用再去对变量进行归一化，也可以加速参数的更新速度；再者使得一个很大权值管理一个特征，拆分成了许多小的权值管理这个特征多个表示，这样做降低了特征值扰动对模型为稳定性影响，也降低了异常数据对模型的影响，进而使得模型具有更好的鲁棒性。