美文网首页
特征工程之共线性

特征工程之共线性

作者: 清梦载星河 | 来源:发表于2020-02-15 20:38 被阅读0次

    1. 共线性问题的基本概念

    特征间共线性

    • 两个或多个特征包含了相似的信息,相互之间也存在强烈的相关关系。

    常用判断标准

    • 两个或两个以上的特征之间的相关性系数高于0.8

    共线性的影响

    • 降低运算效率
    • 降低一些模型的稳定性
    • 弱化一些模型的预测能力

    处理方式

    • 删除。一组相互共线的特征中只保留与因变量相关性最高的一个
    • 变换。对共线的特征进行求比值、求差等变换计算

    2. 相关模块或函数

    • pandas.DataFrame.corr():用于查看相关性系数
    • seaborn.heatmap():如果特征比较多,可以借助热力图来更直观地找出共线性的变量。

    相关文章

      网友评论

          本文标题:特征工程之共线性

          本文链接:https://www.haomeiwen.com/subject/ihayfhtx.html