美文网首页
特征稳定性

特征稳定性

作者: 三方斜阳 | 来源:发表于2021-11-19 17:41 被阅读0次

part1:特征稳定性

特征稳定性,就是关注该特征的取值随着时间的推移会不会发生大的波动,

对特征稳定性的关注,一定要在建模之前完成,从一开始就避免将那些本身不太稳定的特征选入模型。一旦发现有特征稳定性不满足要求,则需要对其进行剔除后重新建模,避免不必要的重复性劳动。

通常采用PSI(PopulationStability Index,群体稳定性指数)指标评估特征稳定性。

part2:常用方法:

  • PSI(PopulationStability Index,群体稳定性指数):

PSI反映了验证样本在各分数段的分布与建模样本分布的稳定性,稳定性是有参照的,因此需要有两个分布——实际分布(actual)和预期分布(expected)。其中,在建模时通常以训练样本(In the Sample, INS)作为预期分布,而验证样本通常作为实际分布

<pre>PSI = sum((实际占比-预期占比)* ln(实际占比/预期占比))</pre>

  • 简单例子理解:

比如训练一个logistic回归模型,预测时候会有个概率输出 p

测试集上的输出设定为p1,将它从小到大排序后10等分,如:

<pre>0.0-0.1
0.1-0.2
0.2-0.3... </pre>

现在用这个模型去对新的样本进行预测,预测结果叫p2,按p1的区间也划分为10等分。

<pre>实际占比 = p2上在各区间的用户占比
预期占比 = p1上各区间的用户占比</pre>

意义就是如果模型更稳定,那么p1和p2上各区间的用户应该是相近的,占比不会变动很大,也就是预测出来的概率不会差距很大。

PS:除了按概率值大小等距十等分外,还可以对概率排序后按数量十等分,两种方法计算得到的psi可能有所区别但数值相差不大

一般认为:

<pre>PSI<0.1 :模型稳定性很高
0.1-0.25:一般,继续监控后续变化
PSI>0.25: 模型稳定性差,建议重做</pre>

  • 具体实现:

step1:将变量预期分布(excepted)进行分箱(binning)离散化,统计各个分箱里的样本占比 注意: 1. 分箱可以是等频、等距或其他方式,分箱方式不同,将导致计算结果略微有差异; 2. 对于连续型变量(特征变量、模型分数等),分箱数需要设置合理,一般设为10或20;对于离散型变量,如果分箱太多可以提前考虑合并小分箱;分箱数太多,可能会导致每个分箱内的样本量太少而失去统计意义;分箱数太少,又会导致计算结果精度降低

step2: 按相同分箱区间,对实际分布(actual)统计各分箱内的样本占比

step3:计 算各分箱内的A - E和Ln(A / E),

计算index = (实际占比 - 预期占比)* ln(实际占比 / 预期占比)

step4:将各分箱的index进行求和,即得到最终的PSI

[图片上传失败...(image-fc79b3-1637314904243)]

  • PSI和K-L散度的关系理解:

相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是两个概率分布间差异的非对称性度量。

划重点——KL散度不满足对称性。

相对熵可以衡量两个随机分布之间的"距离“。

1)当两个随机分布相同时,它们的相对熵为零;当两个随机分布的差别增大时,它们的相对熵也会增大。

2)注意⚠️:相对熵是一个从信息论角度量化距离的指标,与数学概念上的距离有所差异。数学上的距离需要满足:非负性、对称性、同一性、传递性等;而相对熵不满足对称性。

相对熵和PSI的概念非常相近:当两个随机分布完全一样时,PSI = 0;反之,差异越大,PSI越大。

相对熵的公式:

在信息理论中,相对熵等价于两个概率分布的信息熵(Shannon entropy)的差值:

[图片上传失败...(image-7a9318-1637314904243)]

其中,P(x)表示数据的真实分布,而Q(x)表示数据的观察分布。上式可以理解为:

概率分布携带着信息,可以用信息熵来衡量。

若用观察分布Q(x)来描述真实分布P(x),还需要多少额外的信息量?

[图片上传失败...(image-57d277-1637314904243)]

KL散度具有非对称性

相对熵与PSI之间的关系:

[图片上传失败...(image-76a049-1637314904243)]

将PSI计算公式变形后可以分解为2项:

第1项:实际分布(A)与预期分布(E)之间的KL散度—— KL(A||E)

第2项:预期分布(E)与实际分布(A)之间的KL散度—— KL(E||A)

因此,PSI本质上是实际分布(A)与预期分布(E)的KL散度的一个对称化操作。其双向计算相对熵,并把两部分相对熵相加,从而更为全面地描述两个分布的差异。

  • PSI指标的业务应用:

在业务上,一般以训练集(INS)的样本分布作为预期分布,进而跨时间窗按月/周来计算PSI,得到Monthly PSI Report,进而剔除不稳定的变量。同理,在模型上线部署后,也将通过PSI曲线报表来观察模型的稳定性。

入模变量保证稳定性,变量监控

模型分数保证稳定性,模型监控

参考:
(17条消息) PSI群体稳定指数-Python实现_u010654299的博客-CSDN博客_psi python
https://zhuanlan.zhihu.com/p/79682292

相关文章

  • 特征稳定性

    part1:特征稳定性 特征稳定性,就是关注该特征的取值随着时间的推移会不会发生大的波动, 对特征稳定性的关注,一...

  • 2021-06-28 ch22 transfomer

    为什么要layer Norm ?随着网络层数增加,特征分布会变化,为了保持特征分布的稳定性,加速收敛layer N...

  • 第十二次课程打卡    王雨生

    一(1)人格的特征 (2)气质类型的构成 (3)气质类型的特征 二(1)人格的整体性、人格的稳定性和可塑性、人格的...

  • 第十二次课程打卡    王雨生

    一(1)人格的特征 (2)气质类型的构成 (3)气质类型的特征 二(1)人格的整体性、人格的稳定性和可塑性、人格的...

  • 结构百问05-忽略次要结构是否合理

    问:在非线性整体稳定性分析时,忽略次要结构的做法是否合理 最近在做一个网壳结构的整体稳定性分析,计算特征值屈曲模态...

  • 气质何来

    气质,这个词语,心理学上面解释是个人心理活动的动力特征。这些动力特征主要表现在心理过程的强度、速度、稳定性、灵...

  • 20190110第223人格概述

    人格是指一个人的思维、情绪和行为的特征模式,以及背后隐藏或外显的心理机制。 人格的基本特征。:稳定性与可变性,整体...

  • 财报-金融机构

    一.相较于实业的特征 1.系统重要性 ①smooth functioning金融系统稳定性对于整个经济体重要; ②...

  • 树木画测试:你的情绪稳定吗?

    一、影响人的情绪稳定性的因素主要有: 1.情绪稳定性和人格特征中的神经质关系密切。 神经质是种经历消极情绪状态的持...

  • 清新冥想38课

    与潜力相关的特征 潜力由三个特征共同组成:分别是勤奋、情绪稳定性与才华。如果说经济实力和社会地位代表了当下掌控的资...

网友评论

      本文标题:特征稳定性

      本文链接:https://www.haomeiwen.com/subject/czketrtx.html