1. 共线性问题的基本概念
特征间共线性
- 两个或多个特征包含了相似的信息,相互之间也存在强烈的相关关系。
常用判断标准
- 两个或两个以上的特征之间的相关性系数高于0.8
共线性的影响
- 降低运算效率
- 降低一些模型的稳定性
- 弱化一些模型的预测能力
处理方式
- 删除。一组相互共线的特征中只保留与因变量相关性最高的一个
- 变换。对共线的特征进行求比值、求差等变换计算
2. 相关模块或函数
-
pandas.DataFrame.corr()
:用于查看相关性系数 -
seaborn.heatmap()
:如果特征比较多,可以借助热力图来更直观地找出共线性的变量。
网友评论