三、信贷风控常用指标和概念

作者: 迪丽娜扎 | 来源:发表于2023-12-03 18:24 被阅读0次

风控：大数据时代下的信贷风险管理和实践
一文梳理金融风控建模全流程(Python)
Toad：基于 Python 的标准化评分卡模型
如何用指标降低风险（在险价值）
220/1000 人事物
区块链在金融风险数据共享中的应用实践 #F03
信贷风控建模实战（四）——评分卡建模之XGBoost
大数据风控中的联合运营是什么？
干货 | 如何掌握各阶段风控策略设计的关键点？
分类模型的性能评估：混淆矩阵

一、一些常用的业务指标

（1）通过率

授信申请到授信通过的比例、提单申请到提单通过的比例等，就是通过率概念。按环节可以有授信通过率、首单通过率、老客通过率等。

（2）转化率

整个业务流程中，每个环节到下一个环节都存在转化率的情况。但风控所说的转化率一般是指从授信成功到提单申请的转化率。因为这个转化率能够反映出风控授信给出的额度/期限/利率等权益能不能满足用户的需求。

（3）逾期率

按逾期天数的不同，可以分成D0/D3/D7/D15/M1/M2/M3/M6等等的逾期率；

按统计维度，可以分成账期逾期率、订单逾期率、人头逾期率等。后两者则需要定聚合的方法，比如一个订单的若干个账期发生了什么样的逾期情况，这个订单才算逾期订单，一般是前多少期的最大逾期天数。

此外还有单数逾期率和金额逾期率。

（4）滚动率

M1逾期的账期/订单/人头，有多少后来变成了M2逾期，这个比例就叫M1->M2的滚动率。滚动率可以用于确定风险Y标签，例如历史数据分析发现从M1到彻底逾期的滚动率为99%，那么把M1当作坏标签就问题不大，如果滚动率只有50%，就有点不准确。

（5）风险敞口和vintage

“敞口”是针对分期来说的。如果一个订单分为12期，前两期正常还，第3期发生了M1逾期，后面的4-12期还没到期。如果仅按账期逾期率或金额逾期率来看，只有第3期逾期了。但因为第三期逾期代表着后面的4-12期的不还的风险很大，那么4-12期的未还金额，就被称为风险敞口。

计算风险敞口有ever口径和now口径。当用ever口径时，只要第3期发生了M1逾期，不管它后来什么时候还的，也不管后面的4-12期是不是按时还的，这些金额永久的被当作敞口金额。因此，ever口径下的vintage曲线是不会下降的。now口径则是在当下看第3期是否还处于M1逾期，如果没有，则对应的敞口就没了。因此，now口径下的vintage是会下降的。

vintage是一种考察资产变化和历史策略的方式。其考察对象是某个月的放款（一般是按月为单位），比如2023-01的放款。横轴是账龄，一般以月末时间点统计，比如2023-01-31为mob0，02-28为mob1，...。在每个账龄，都可以根据账期表现，统计出这批放款的的风险敞口。风险敞口/总放款金额，就是vintage，并最终形成一条曲线。历史上每个月的放款都可以画出这样一条曲线。如果某个月的曲线尤其的低于其它月份，说明该月的市场很好或风控做的很好。反之就是有点差。

敞口和vintage是很偏业务的概念，做风控模型倒不用十分理解。

（6）LIFT

业务层面的LIFT，是指制定完一套策略之后，该策略拒绝的人的逾期率相比大盘的倍数。在国内一般至少要2-3倍的LIFT才会考虑拒绝。

（7）换入换出

当制定一套新的策略时，需要考察新旧两个策略的优劣对比。被新策略通过但被旧策略拒绝的称为换入，反之称为换出。一般要求换入的风险要明显低于换出，这也是新策略能降低坏账率的核心点。

模型本身的排序性也可以通过观察分层的换入换出来理解。新旧两个模型都是分ABCDE层，旧模型A层但落到新模型B层及以下的样本，风险应该高于原A层。新旧模型各层之间的换入换出是策略的通过/拒绝两层的详细版。换入换出的符合预期，也是新模型比旧模型排序性好的业务体现。

（8）入催率、迁移率、催回率

其实入催率就是和逾期率类似的概念，迁移率就是类似于滚动率，而催回率就是类似于1-迁移率的概念。只是通常贷后这么称呼。

（9）不良率

不良率已经是个“资产”的概念了，与信贷风控业务本身的距离有点远。一笔信贷资产，定一个逾期天数的指标（如M3），逾期严重倒这个地步就属于不良资产。不良资产占比就是不良率了。

上述指标在含义上没什么复杂的，但实际计算可能有各种各样的口径和方法。这其中核心的原因是，一笔信贷业务是有较长的时间跨度的，比如12个月/24个月；又：它的表现是逐步表现出来的。不可能每次都等到完全完备的表现数据出来才能分析，毕竟两年后黄花菜都凉了。

二、特征/模型常用的指标

（1）错误率

是一个评价二分类模型预测准确性的指标：预测正确的样本量/总样本量。在国内的信贷风控场景中，Y标签严重不均衡，该指标没有实际用处。

（2）准确率/召回率

也是评价二分类模型的准确性的指标。

准确率（P）=TP/(TP + FP)

召回率（R）=TP/(TP+FN)

二分类模型的原始预测值是个介于0-1之间的浮点数。要确定类别，需要先确定阈值。根据不同的阈值，P和R可以构造成一个从(0, 1)到(1, 0)且向右上角突起的曲线，称之为PR曲线。

为了综合评价P和R，衍生一个F1的概念 $F_1 = \frac{1}{\frac{1}{P}+\frac{1}{R}}=\frac{P·R}{P+R}$ 。为了更偏重P或R，可以在其中一项前设置一个系数，也就从 $F_1$ 变成了 $F_{\beta }$

（3）AUC

i. 第一种描述

TPR = TP / (TP + FN)：正样本被预测对的比例，和召回率一样。

FPR = FP / (FP+ TN)：负样本被预测错的比例。

以横轴为FPR，纵轴为TPR。随着阈值的不同，可以画出一条从(0, 0)到(1, 1)且向左上方凸起的曲线，称为ROC曲线。ROC下面的面积就是AUC

ii. 第二种描述

任取一个正样本，任取一个负样本，对比一对样本的预测值，预测值的大小关系有正确和错误之分（比如正样本的预测值>负样本预测值就是正确，反之就是错误）。随机进行上述若干次操作，正确的比例就是AUC。

iii. 两种描述的统一性

TO DO

AUC的计算已经涉及到了“遍历阈值”的概念，所以从评估分类准确性的指标，升级成了评估排序性的指标。

（4）KS

以模型预测值为横轴，可以分别画出正样本的分布函数和负样本的分布函数。这俩函数的在同一位置的差值的最大值，就是KS。

在实际计算时，可能并不会遍历所有的阈值，而是仅分10箱或20箱去看。

在一个正常的模型下，AUC和KS是正相关的，甚至AUC是多少就能推测出KS大概是多少。如下图所示

（5）IV（Information Value）

把样本根据某个特征或模型分分成若干箱之后，每一箱有两个基础指标：pos_ratio: 该箱正样本占全部正样本的比例，neg_ratio：该箱负样本占全部负样本的比例。则该箱的 $WOE=ln\frac{pos\_ratio}{neg\_ratio}$ ，该箱的 $iv = (pos\_ratio - neg\_ratio)·WOE$ ，总的 $IV=\sum_{bin=1}^{n}iv_{bin}$ 。

一般认为IV<0.02就是不具备区分度。如果模型的预测值大致时双峰正态分布，使用等频分20箱计算IV，其与AUC的对比情况大致如下。

计算IV时有不同的分箱方式，简单描述如下

i. 等距分箱、等频分箱：略。

ii. 决策树分箱

使用单特征训练一个决策树，根据决策树提供的分割点进行分箱。决策树可能比简单的等频分箱能找到更优的分箱分割点。但需要控制过拟合，可以设置叶子节点数、分箱最小样本数等参数。

iii. 卡方分箱

TO DO

（6）PSI

PSI是评估特征或模型的分布稳定性的指标。所谓稳定性，就是特征在两个样本集上的分布差异大不大。一个样本叫BASE样本，一个样本叫TEST样本。针对某一个特征，使用某种分箱方式把BASE样本分成若干箱，每一箱都有一个样本占比，称为预期占比；使用同样的分箱把TEST样本也分箱，每箱也有一个样本量占比，称为实际占比。 $PSI=\sum_{i=1}^{bins}(实际占比-预期占比)ln\frac{实际占比}{预期占比}$

可以看到，PSI和IV的计算公式是一模一样的。使用PSI的口吻描述一个特征的IV，就是该特征在正负两个样本集上的分布的差异。区别是，当是看PSI时，是越小越好，当是看IV时，是越大越好。

（7）覆盖度 / 同值率等略。

各种指标可以用于特征的筛选、监控等。在使用时可能有各种组合方式，比如IV也可以考察稳定性。

风控：大数据时代下的信贷风险管理和实践
风控：大数据时代下的信贷风险管理和实践.azw3: 风控：大数据时代下的信贷风险管理和实践.epub: 风控：大数...
一文梳理金融风控建模全流程(Python)
一、信贷风控简介信贷风控是数据挖掘算法最成功的应用之一，这在于金融信贷行业的数据量很充足，需求场景清晰及丰富。 ...
Toad：基于 Python 的标准化评分卡模型
在信贷的风控模型中最常用、最经典的可能要属评分卡了，所谓评分卡就是给信贷客户进行打分，按照不同业务场景可为贷前、贷...
如何用指标降低风险（在险价值）
1）传统的合规风控，昨天的风控 2）产品的风控，今天的风控 3）量化指标风控，未来的风控风控人员的责任：甩锅，争...
220/1000 人事物
昨天下午的沙龙分享，给自己点赞。企业信贷的风控逻辑，银行信贷的底层逻辑分为三个部分，人，事，物。人：分为法人...
区块链在金融风险数据共享中的应用实践 #F03
金融机构或者企业在开展各类风控相关业务的过程中，需要收集风控数据，构建风控体系，并最终服务于相关业务场景。以信贷业...
信贷风控建模实战（四）——评分卡建模之XGBoost
1. XGBoost的评分映射逻辑在前一篇文章信贷风控实战（三）——评分卡建模之逻辑回归[https://w...
大数据风控中的联合运营是什么？
大数据风控服务商全流程参与信贷平台的风控建设成为一种趋势，这种新模式被业内称为“联合运营”。早期大数据风控服务商...
干货 | 如何掌握各阶段风控策略设计的关键点？
如何搭建量化风控体系？风控策略设计应把控哪些关键点？在风险集成的应对策略上，要考虑哪几个环节？信贷业务的客户生命周...
分类模型的性能评估：混淆矩阵
混淆矩阵（Confusion Matrix），也叫误差矩阵，是分类模型中常见的概念，在风控领域，我们常用「准确率」...