“深扒术语不装逼,实战真知变牛逼。”
传统模型的建立方式,其实背后是一个讲得很多的道理:就是用过去的经验预测未来。
中国有个成语叫“以史为鉴”。也就是说评分卡的最大的假设是历史会重演,通过总结历史的经验,可以对未来产生效果。
总结的历史够不够长,就会有所谓的周期这个概念。
简单的说,如果经济处于下行,那么“历史经验”,有可能会发生偏差。如果经济处于上行,那么这种偏差大概率是往好的方向转。
本文并不讨论周期的情况。因为有评分卡,有计量模型,总比没有好。即便在应对经济周期的上行和下行,也是有对应的方式来处理的,后续通过其他的篇章来说明。
既然要建立模型:任何事情都需要有一个目标。模型的目标是怎么确立下来的呢?模型的方法论,操作过程都是比较标准化的,往往影响模型的最终效果的是目标的确立以及数据的质量。
数据的质量,放在其他的篇章讨论,这篇只讨论目标的确定。
- 传统评分模型是如何设定目标的呢?
简单的说就是要定义好客户,坏客户。
是的,你没有看错:坏客户要定义,好客户也要定义。
并不是说非好即坏或者非坏即好。
为什么要这样呢?因为评分模型,只有把极端的两种客户放在同一个数据集里边,通过统计学方法的计量之后,才能更好地找到他们的差异。其实也比较好理解,因为好用户的特征和坏用户的特征,看同样的变量信息,一定是有差异的。
对于不好不坏的客户,在模型建立的时候并没有放进去,但是出来的评分依然会对他们有效。
-
一般是怎么定义坏客户呢?
简单的说,就是坏到没有办法回收回,贷款,那么这种一般就定义成坏客户。
但是银行的客户、消费金融公司的客户、及小贷的客户,他们的坏客户定义很可能不完全是一样的。
也就是说银行客户的质量可能是最好,消费金融的公司可能差一点,小贷公司的客户可能是这里边其中里边最次的。
其实不管是哪种类型的客户,都有一个相对通用方法来定义什么叫做坏客户。
这种方法我们把它叫做滚动率。
什么叫滚动率呢?就是说客户从某一期不还,掉到下一期的概率有多少?
一般的期是指一个自然月,对应到天数一般是30天一期。逾期60天的客户一定是从逾期30天的用户里掉进来的,逾期90天的用户一定是逾期60天的用户里掉进来的。
60 - 90天人数滚动率 = 本期逾期到90天的客户数量 / 上期逾期到60天的客户数量
如果说某一期掉到下一期的概率已经超过了80%,那基本上可以这个逾期阶段定义为坏客户表现。
比方说银行的用户,逾期到90天,90天再往后,不还钱的概率超过了80%,那么90天逾期,可以作为银行用户的坏客户表现的定量指标。
消费金融公司,有可能定义成60天;小贷公司有可能定义成30天。因为对应的逾期天数,不还钱的概率也是超过80%的。
当我们找到这个坏客户的表现定义之后,就可以开始看Vintage.
-
Vintage是个什么鬼呢?
大概长下面这个样子:
Vintage的意思有很多,对应看数据指标的最早的相关的是葡萄酒行业,后来运用到其他行业。
它的横轴代表的是时间,时间代表着跟年龄,或者叫账龄相关。纵轴其实是表现指标,风险的表现指标,也就是刚才讲的逾期天数指标。
风险表现的账龄一般用月份来表达,也就是说,你的用户在第1个月,第2个月,第3个月...对应的风险表现的指标分别去到了多少?
这么说也许有点抽象,我们再来看看另外一个Vintage.
这个Vintage就表明小朋友,1岁、2岁、3岁...的时候,他对应的身高体重去到了多少?
小朋友长到一定的时候,16~18岁的时候,基本上就定型了,尤其是身高,基本上就不会再长了。也就是说18岁之后,他的身高基本上就是不会有增加,也不会有减少。再换句话来说,这个小朋友已经长大成人了,他已经成熟了。
对于传统的Vintage风险表现来说,也是类似的道理,一群用户,需要多长的时间才能看到风险不再增加。根据产品的不同,也许是6个月,9个月,或者12个月。当风险不再增加,转向平稳期的那个拐点,也就是账户风险的表现稳定下来的这个时间,叫做表现期。
我们知道,风险都是后置的,需要有一定的时间去观察,那么这个时间到底是多少?时间窗口到底应该怎么设置?通过观察Vintage我们就知道了。
知道了这个时间有什么好处呢?就是和我们建模时候采集什么时间的数据有关系。
比方说我们观察到Vintage,风险水平平稳拐点是9个月,那么肯定要拿9个月之前这批用户,9个月之后的现在,风险表现才能稳定下来。
也就是说,建模的样本要从现在起,往前数至少9个月,9个月以及之前的才是稳定成熟表现期的样本。
那么最标准的做法比方说,每批都是9个月,9个月之前的,观察9个月的时间,再往前的也是观察9个月的时间,我们把这种抽样观察的方法叫做滚动窗。
那么也就是说,所有的样本都有9个月的表现期,不多也不少。
当然,在实际的操作中,尤其是业务刚开展的时候,表现期也许等不了那么长的时间,这个时候可以采用叫做固定窗的方式。
那么看到上面一张图就知道,跟滚动窗最大的不一样是每个月他的表现期的时间长度是不一样的,因为越早之前截止到目前的表现期是最长的,越往后的截止到目前的表现期是越来越短的。
这么做的好处是什么呢?就是在业务初期业务量比较少的时候,也能通过这种方式,可以建出来评分卡,但是由于每一组用户的表现期的长度都不一样,所以呢,跟滚动窗的方式是有区别的。
这个区别就是说,坏的肯定是坏的,但是表现时间窗口挺短的,用户里面可能还有坏的样本没有出现(因为没有完全稳定下来)。当然这是没有办法的做法,等到业务再跑一段时间成熟的时候,逐步把固定窗转向滚动窗。
好了,我们上面说了坏客户的定义方式,以及表现时间窗口的确定,以及固定窗和滚动窗的区别。
接下来我们就要说好客户了,好客户到底是什么定义呢?我们刚才讲了,好客户肯定不能是,不是坏客户的就是好客户,因为这样做等于把所有的数据都放进来了,这样的话呢,好和坏的界限会非常的接近,模型是没有办法去做一个比较好的区分的。
所以我们也要对好客户进行定义。参考坏客户的定义:坏客户是指大概率没有办法收回来钱的用户,那么好客户当然是相反的,基本上都是按时还钱的用户。
是不是好客户一定是从来都没有逾期过的用户呢,也不一定是。比方说,如果信用卡用户选的好客户,都是从来不会欠钱的,从风险上来说一定是好的客户。但是信用卡用户每个人都按时还钱,其实银行是赚不了钱的。所以会有些做法,容忍一定程度的逾期,偶尔逾期的用户,也会把它放到好的用户的定义里边。这个取决于银行不同的银行对于风险容忍度的偏好。
我们来总结一下吧。
- 好客户坏客户都需要有定义,不能是说非坏极好或者非好极坏。
- 坏客户是指基本上没有可能回收贷款的客户。
- 好客户一般是指不会逾期的客户,但是银行的风险偏好不一样,也许会允许个别偶尔预期的客户,定义成好客户。
- 通过滚动率,可以知道坏客户的定义。
- 需要多长时间才能把一个群体的坏客户看清楚,可以通过Vintage的方式。
一句话总结:如果坏用户是逾期90天以上,稳定的表现需要9个月的时间,那么数据的准备就是要把9个月之前的申请数据拿出来。模型的效果就是预测这些用户,未来9个月的会变坏(逾期90天以上)的可能性。
本期内容就这些。谢谢啦
网友评论