美文网首页
在训练数据时,对联系特征离散化的意义

在训练数据时,对联系特征离散化的意义

作者: JerryLoveCoding | 来源:发表于2020-05-12 23:23 被阅读0次

    归纳总结于:https://blog.csdn.net/shenxiaoming77/article/details/72600527

    1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展

    2. 离散化后的特征对异常数据有较强的鲁棒性。因为如果连续特征没有离散化而只是进行了归一化,一两个极端值(1或0)或特征值分布极不均匀(比如大部分特征值都分布在0.1-0.6之间,但是偶然出来一两个1)可能会给模型造成很大的干扰;离散化后极端值也只对应于一个权重。

    3. 连续特征离散化有助于增强模型稳定性,对于细微差别的数据,能够使其分布在同一区间。

    4. 特征离散化以后,起到了简化了分类模型的作用,降低了模型过拟合的风险。(当使用连续特征时,一个特征对应于一个权重,那么,如果这个特征权重较大,模型就会很依赖于这个特征,这个特征的一个微小变化可能会导致最终结果产生很大的变化,这样子的模型很危险,当遇到新样本的时候很可能因为对这个特征过分敏感而得到错误的分类结果,也就是泛化能力差,容易过拟合。而使用离散特征的时候,一个特征变成了多个,权重也变为多个,那么之前连续特征对模型的影响力就被分散弱化了,从而降低了过拟合的风险。)

    5. 离散的取值:对于离散特征的特征空间,我认为应该是变化趋势与均方误差损失较小的情况下,尽量取取值小的特征空间。并且对于每一个特征都应该独立分析其特征空间的取值。再加上个人一些不成熟的想法:如果对每个特征都计算与target之间的相关性,并对相关性进行排序,然后对于相关性高的变量尽量取较大的特征空间,对于相关性低的数据尽量取较低的特征空间。

    相关文章

      网友评论

          本文标题:在训练数据时,对联系特征离散化的意义

          本文链接:https://www.haomeiwen.com/subject/jvwinhtx.html