1、风控建模中好坏定义的依据是什么,怎样划定表现期和观察期?
在贷款发生过程中,一般可以用客户延期还款时间长短来刻画客户的逾期程度,逾期时间越长,客户风险越高。但是,并不是客户一旦有逾期行为就定义为’坏客户‘,相反,逾期一定时间内的客户的还款概率也是较高的,是有收益的,业务上也是可以接受的。因此这里可以依据自身业务水平,借助用户的还款滚动率分析来界定逾期多少天才为坏用户。(滚动率是用户的还款状态由上个时间段向下个时间段滚动的比率计算。)
账龄分析可以看出充分暴漏坏用户所用的时间周期,常用于划定建模数据的表现期和观察期。
2、个人总结风控经验杂谈
风控后台设计,从表字段管理、产品线管理、场景管理、规则部署、额度利率设置、风控报告查验、权限设置等都要逻辑清晰、系统规范,使用流畅;
风控后台要有部署单条规则、组合规则以及评分规则的基本功能,应界面清晰友好,部署简单化,最好有部署集成模型的功能(可以上传变量文件和模型文件),规则名称命名符合规范,系统有检查规则名称唯一性提示;
部署规则前应该先要在所需场景(贷前、贷中等)下绑定数据接口(比如在贷前场景下绑定芝麻分接口),在表管理里面添加需要的表和字段,最后按照规范化要求新增规则,并把规则绑定到该场景下,即生效;
风控数据库中的数据表要按照分析或者模型需求存储,方便后续工作开展。比如,第三方表要按照时间链条方式存储,并可以和借、还款订单一一关联;衍生变量按照时效性分为借款时更新、还款成功时更新以及定时更新,保证规则可以取到合理有效的数据;当指标为空时,要确定是第三方数据为空(第三方数据为空的原因),还是系统调用出现问题为空(有数值未调用到)等;
规则或者模型用到的变量(入参)以及结果输出(出参)是否存储逻辑清晰、合理;用户的额度、利率变化记录是否存储;用户的借款记录、还款记录、逾期记录是否存储合理,并实时更新;
不同风控场景下,规则尽量以规则集的形式部署,单条规则散落没有逻辑性,不方便维护调整,模型可以单独部署。所有规则、模型都要有一套完整的命名规范;
风控后台的规则的变动(增、删、改)都要做好实时记录,什么时间点、基于什么原因,规则变动详情都要做好记录;对于风控系统的bug,产生的影响也要记录在案;
可以成立风控小组共享文件,里面记录一些组内成员的日常风控经验以及知识,比如,额度计算策略、利率计算策略、收益计算公式、评分卡建模取数逻辑、好坏定义的逻辑来源等,也可以放置关于风控业务的分享文件,方便组内人员高效查询;
规则或者模型都要定期做数据检查、校验,形成检验报告,并通知到组内小组成员目前数据、规则和模型的运行状况,有问题即使反馈,并共同商议解决办法。
成立风控学习分享小组,定期或者不定期进行组内风控知识的分享、交流、专题报告等(这是个人觉得非常有意义的事情,增进同事友谊,共同学习业务经验)
3、为什么要做拒绝推断?常用的拒绝推断方法有哪些?
拒绝推断目的:
第一、做模型时只选择风控通过的用户,忽略了被拒绝的用户,这样的建模样本是不能代表用户总体的;第二、由于风控策略的变动,原来被拒绝的用户不一定现在被拒绝,只考虑审批通过的会极大可能造成误判;第三、利于挖掘被拒绝用户中好的用户,逐步完善风控策略;第四、模型做拒绝推断,可以避免模型的得分以及拒绝率在线上线下差异过大。
拒绝推断方法:
截断法:先利用审批通过的用户建立初始模型,利用该模型对拒绝用户进行打分,设定拒绝阈值,把划分的好坏用户加入到建模样本,重新建模。
分配法:先利用审批通过的用户建立初始模型,并且进行评分分组,计算各组违约率;然后对拒绝用户进行评分,同理分组,以各分组的违约率为抽样比例,随机抽取该分组下的违约用户为坏用户,剩下的则是好用户,把标记好的用户纳入样本,重新建模。
4、简述风控建模的一般流程
业务和数据了解:做评分模型之前一定要先去熟悉产品业务,了解建模目的以及建模意义,有方向导向建模;了解数据,利于前期理清取数逻辑,同时,熟悉指标含义,利于变量筛选和处理;
模型设计:包括取数逻辑的确定、模型的选择、是否做拒绝推断、观察期表现期确定、项目周期计划制定,是否需要开发指标等;
指标选取:选取合理观察期表现期的全量数据指标,定义好坏用户标准;
数据预处理:对选取的指标数据进行数据预处理、例如缺失值处理、异常点处理、单一值处理。可以用psi考察变量在时间序列上的稳定性。变量的描述性统计分析;
特征工程:主要是特征的筛选。如果是评分卡主要是依据随机森林、lasso回归、IV值计算xgboost算法等,另外会基于对业务的深入理解做特征构造工作,包括特征交叉,特征转换,对特征进行四则运算、时间切片等。同时,还要对变量进行woe分箱处理;
模型建立与评估:建立合适的模型(基于logistic的评分模型、集成模型等),借助ks、auc、psi等来评价模型效果以及模型稳定性;
模型部署:在风控后台上配置模型规则,或将封装为类来实时调用,注意模型部署方式的正确性;
模型监控:主要是检测模型是否正常运行,比如,模型分数是否正确,分数以及变量值是否存储,模型分数与利率(额度)策略是否匹配等。模型分数(概率)分布是否与模型数据集偏差较大,模型拒绝率等。后期积累一定线上用户后可评估线上模型的AUC,KS,与线下进行比较,衡量模型的线上的实际效果。
5、风控模型的部署方式有哪些?
评分卡模型部署方式较为简单,只需要部署模型中的变量、变量区间以及对应得分,最后所有变量得分相加即为用户得分。
集成模型部署方式较为复杂,目前,通常会采用pmml方式部署。一般是将模型文件转换为pmml格式,并封装pmml,在风控后台上上传pmml文件和变量参数文件,并配置好模型的阈值
6、可以从哪些方面评价评分卡模型的有效性
业务上具有可解释性:一个有效的评分模型首先要在业务上具有可解释性,比如变量评分趋势是否单调(通常,变量会和分数呈现单调关系,若不单调,在业务上可解释的通也是可以的),变量评分趋势是否符合业务逻辑(芝麻分越高,是否得分越高)等;
模型复杂程度:一般评分模型评分变量尽量在8-12个之内,变量太多,可能会造成模型冗余,变量重要程度或显著性不高,稳定性也会下降;
好用户和坏用户的评分区间交集太多说明模型好坏区分能力不强;
模型指标ks、auc值要在可接受的范围内,太低说明模型效果不好;
模型用户总评分分布不宜太聚集(主要集中于中间分数段),不利于用户分层划分;
(一定周期后)随时间推移,模型整体得分成正态分布,模型单个变量的得分占比较稳定;
(一定周期后)用户的评分与用户的资金损失应该呈反比关系,用户评分越高,资损越低;
(一定周期后)模型在线上、线下样本集上分数区间划分样本占比应该相差不大,拒绝率与预设值差别不大,psi值较小(低于0.1)。
7、不同风控阶段的评分卡特点有哪些?
申请评分卡主要部署在贷前阶段,主要作用有3个:参与决策、授信额度、初始利率。是贷前审核的基础模型,一般用到的指标包括两方面:自身属性(通讯录,个人信息等)和第三方属性(历史信贷、运营商信息、消费记录、信用记录(芝麻分)、多头借贷等),通常,a卡建模会使用拒绝推断
行为评分卡主要部署在贷中阶段,主要是对用户贷中行为的评判,防控贷中风险,同时对用户额度做合理的调整。主要用到的指标除了a卡中指标外,还包括用户的行为属性(登录、浏览、消费、借款、还款、逾期等)
催收评分卡主要部署在贷后阶段,是对逾期用户预测催收反应的概率,从而采取相应的催收策略与措施
8、评分卡建模时,特征工程主要做哪些方面?
特征衍生:
数据维度:根据已有的变量进行特征衍生,比如按照时间切片对变量求和、求均值、波动、最值、计数等;
业务维度:基于业务经验衍生新的指标变量,比如,一个月内接听和拨打同一电话占比(一月内接听和拨打同一电话去重计数/本月所有通话号码去重计数)
特征选择:
数据分析:特征分布分析,数据的质量检验(数据可用性、一致性、正确性等)
特征处理:缺失率较高、单一值比例较高、非常稀疏的特征可以先剔除掉,并进行异常值处理,文本信息处理,哑变量编码;
指标初筛:根据随机森林、lasso回归、IV值、xgboost等进行特征重要性排序(过高IV值白能量也要去掉,整个模型受到单个变量影响太大,不稳定);
相关筛选:相关性较高的变量需要剔除
影响关系:最后考察剩余变量与目标变量的可解释能力,并保证变量评分合理性。
9、风控模型上线后是如何进行监控的?
实时监控:
模型上线后,应立刻监控用户通过模型,各个数据指标值的存储是否正确,变量评分是否正确;
模型上线后,应立刻检验用户总分是否存储,抽检单个用户各个变量得分之和是否等于总分;
模型上线后,应立刻检查用户额度、利率是否存储,是否与总分配置区间匹配正确;
前期监控:
一定时间周期内,统计单个变量不同得分占比是否稳定(比如,芝麻分得10分占比为20%,得20分占比未30%,得30分占比未50%,这个比例是否一段时间段内较为稳定)
设置的cutoff点可以对比线上线下拒绝率差异,若差异过大,考虑是否发生分数总体偏移或分布差异;
通过计算psi值来监控模型整体的稳定性,若psi过大,是否发生分数总体偏移或分布差异;
对比线上、线下数据集分数的分数分布,分别做出分布柱状图更能直观对比分布差异;
后期监控:
判断模型区分好坏用户的能力,可以计算模型指标ks、auc值,并对比建模时候指标;
用户的评分与用户的资金损失应该呈反比关系,用户评分越高,资损越低;
10、互联网金融风控中的反欺诈是如何做的呢?
反欺诈这个重要环节主要在贷前场景:
黑名单验证:注册认证是填写的客户的四要素是姓名+身份证号+手机号+银行卡号,通过SDK抓取到你的设备指纹和IP,这6个为索引条件进行黑名单匹配,命中即拒绝;
多头借贷:主要是通过设备指纹、IP、四要素等分析在不同平台的申请频率,过高则认为是高危人群,具有较高欺诈风险;
真人验证:通过短信验证、语音验证、图形验证、人脸识别、虹膜识别等一系列人工智能技术来识别活体真人;
勾稽规则:主要是对比填写的信息(学历、性别、年龄、收入、工作、住址,单位地址等)与抓取信息的一致性(部分为模糊匹配);命中风险给与分值累加,超过阈值人工审核或者拒绝;
社交关系网络:统计申请人的通讯录以及通话记录中失信人员、黑名单人员、催收公司号码占比情况,给与相应策略;
欺诈模型:参考链接 反欺诈(Fraud Detection)中所用到的机器学习模型有哪些?
https://zhuanlan.zhihu.com/p/56474197(风控模型师准备--业务+模型篇)
https://blog.csdn.net/WangYouJin321/article/details/105026155(风控建模相关问题(转自七月算法))
网友评论