特征稳定性

作者: 三方斜阳 | 来源:发表于2021-11-19 17:41 被阅读0次

特征稳定性
2021-06-28 ch22 transfomer
第十二次课程打卡王雨生
第十二次课程打卡王雨生
结构百问05-忽略次要结构是否合理
气质何来
20190110第223人格概述
财报-金融机构
树木画测试：你的情绪稳定吗？
清新冥想38课

part1：特征稳定性

特征稳定性，就是关注该特征的取值随着时间的推移会不会发生大的波动，

对特征稳定性的关注，一定要在建模之前完成，从一开始就避免将那些本身不太稳定的特征选入模型。一旦发现有特征稳定性不满足要求，则需要对其进行剔除后重新建模，避免不必要的重复性劳动。

通常采用PSI（PopulationStability Index，群体稳定性指数）指标评估特征稳定性。

part2：常用方法：

PSI（PopulationStability Index，群体稳定性指数）：

PSI反映了验证样本在各分数段的分布与建模样本分布的稳定性，稳定性是有参照的，因此需要有两个分布——实际分布（actual）和预期分布（expected）。其中，在建模时通常以训练样本（In the Sample, INS）作为预期分布，而验证样本通常作为实际分布

简单例子理解：

比如训练一个logistic回归模型，预测时候会有个概率输出 p

测试集上的输出设定为p1，将它从小到大排序后10等分，如:

现在用这个模型去对新的样本进行预测，预测结果叫p2，按p1的区间也划分为10等分。

<pre>实际占比 = p2上在各区间的用户占比
预期占比 = p1上各区间的用户占比</pre>

意义就是如果模型更稳定，那么p1和p2上各区间的用户应该是相近的，占比不会变动很大，也就是预测出来的概率不会差距很大。

PS：除了按概率值大小等距十等分外，还可以对概率排序后按数量十等分，两种方法计算得到的psi可能有所区别但数值相差不大

一般认为:

<pre>PSI<0.1 ：模型稳定性很高
0.1-0.25：一般,继续监控后续变化
PSI>0.25: 模型稳定性差，建议重做</pre>

具体实现：

step1：将变量预期分布（excepted）进行分箱（binning）离散化，统计各个分箱里的样本占比注意： 1. 分箱可以是等频、等距或其他方式，分箱方式不同，将导致计算结果略微有差异； 2. 对于连续型变量（特征变量、模型分数等），分箱数需要设置合理，一般设为10或20；对于离散型变量，如果分箱太多可以提前考虑合并小分箱；分箱数太多，可能会导致每个分箱内的样本量太少而失去统计意义；分箱数太少，又会导致计算结果精度降低

step2: 按相同分箱区间，对实际分布（actual）统计各分箱内的样本占比

step3：计算各分箱内的A - E和Ln(A / E)，

计算index = (实际占比 - 预期占比）* ln(实际占比 / 预期占比)

step4：将各分箱的index进行求和，即得到最终的PSI

[图片上传失败...(image-fc79b3-1637314904243)]

PSI和K-L散度的关系理解：

相对熵（relative entropy），又被称为Kullback-Leibler散度（Kullback-Leibler divergence）或信息散度（information divergence），是两个概率分布间差异的非对称性度量。

划重点——KL散度不满足对称性。

相对熵可以衡量两个随机分布之间的"距离“。

1）当两个随机分布相同时，它们的相对熵为零；当两个随机分布的差别增大时，它们的相对熵也会增大。

2）注意⚠️：相对熵是一个从信息论角度量化距离的指标，与数学概念上的距离有所差异。数学上的距离需要满足：非负性、对称性、同一性、传递性等；而相对熵不满足对称性。

相对熵和PSI的概念非常相近：当两个随机分布完全一样时，PSI = 0；反之，差异越大，PSI越大。

相对熵的公式：

在信息理论中，相对熵等价于两个概率分布的信息熵（Shannon entropy）的差值：

[图片上传失败...(image-7a9318-1637314904243)]

其中，P(x)表示数据的真实分布，而Q(x)表示数据的观察分布。上式可以理解为：

概率分布携带着信息，可以用信息熵来衡量。

若用观察分布Q(x)来描述真实分布P(x)，还需要多少额外的信息量？

[图片上传失败...(image-57d277-1637314904243)]

KL散度具有非对称性

相对熵与PSI之间的关系：

[图片上传失败...(image-76a049-1637314904243)]

将PSI计算公式变形后可以分解为2项：

第1项：实际分布（A）与预期分布（E）之间的KL散度—— KL(A||E)

第2项：预期分布（E）与实际分布（A）之间的KL散度—— KL(E||A)

因此，PSI本质上是实际分布（A）与预期分布（E）的KL散度的一个对称化操作。其双向计算相对熵，并把两部分相对熵相加，从而更为全面地描述两个分布的差异。

PSI指标的业务应用:

在业务上，一般以训练集（INS）的样本分布作为预期分布，进而跨时间窗按月/周来计算PSI，得到Monthly PSI Report，进而剔除不稳定的变量。同理，在模型上线部署后，也将通过PSI曲线报表来观察模型的稳定性。

入模变量保证稳定性，变量监控

模型分数保证稳定性，模型监控

参考：
(17条消息) PSI群体稳定指数-Python实现_u010654299的博客-CSDN博客_psi python
https://zhuanlan.zhihu.com/p/79682292

网友评论

本文标题：特征稳定性

本文链接：https://www.haomeiwen.com/subject/czketrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

特征稳定性

PSI（PopulationStability Index，群体稳定性指数）：

具体实现：

PSI和K-L散度的关系理解：

PSI指标的业务应用:

相关文章