背景
Lending club之所以一度成为全球p2p行业老大的地位得益于其风控系统,不过中美信用体系,金融行业发展程度相差很大,lending club在交易中只充当交易平台,风险由投资者自己承担,lending club 利用其风控系统一度将坏账控制在很小的比例,我们当然好奇这套模式具体是怎样的?
* 如下图所示:lending club的风控体系分为三步:
* 初步筛选(决定是否准贷)
* 进一步评估
* 深度评估(决定利率)
风控流程图以上我们看到初步准贷的条件有4点,第一点借款人的信用评分不少于660分,这个要求就很不低了。看来lendingclub的准贷门槛很高,不是什么人都能得到贷款,这也是对在lendingclub上投资客户的负责。
第二步进一步评估过程会整合借款人的条件,将他们分为从A1到E5的25个等级
一、提出问题
1.了解lending club的2007-2015年经营信息 ,如:每年交易数变化、每年放款金额变化、每年交易客户数变化,每年人均贷款金额变化。
2.总坏账数,每年的坏账率怎么样?
3.客户贷款需求多集中在什么金额范围内?都选择多久还款期限?
4.利率在什么范围内?
5.Lenging club信用等级风控模型是否管用?坏账出现出现在哪个信用等级上了?
6.工作多少年对于贷款发放来说是好的,什么是不好的?
7.坏账与年收入是否有关系?
8.什么贷款目的是好的,什么贷款目的是坏的?
二、理解数据
数据来源:
https://www.kaggle.com/wendykan/lending-club-loan-data/home
主要包括 6大块数据信息
* 基本贷款信息包括,贷款ID、会员ID、贷款金额、贷款期限,分期付款金额,贷款日期,贷款状态;
* 授信信息包括信用等级,利率;
* 个人政务信息包括房屋拥有情况,工作,工作年数,年收入,资产收入比值*100;
* 其他信息包括贷款目的;
* 地理信息:邮编,州;
* 公共记录信息包括过去两年内信用档案中逾期30天以上的次数;
* 过去6个月的查询数目(不包括房屋和汽车按揭);自借款人最后一次拖欠债务以来的月数等等;
三、数据清洗
1.选择子集
2.列名重命名(此案例不需要重命名)
3.处理重复数据
4.数据类型转换
5.排序
四、构建模型及可视化
1.了解lending club的2007-2015年经营信息 ,如:每年交易数变化、每年放款金额变化、每年交易客户数变化,每年人均贷款金额变化。
2007-2015年,lending club上交易的客户数直线攀升,由于贷款期限3年或者5年,没有重复贷款的客户,客户数量的攀升给lending club平台带来不断增长的交易量,这应该是平台信誉积累的结果。
2.总坏账数,每年的坏账率怎么样?
2007-2015年坏账率控制在7.60%的范围,这应该说非常不错,但是我们要注意的是,平台这份数据集还有60万个订单处于‘current’状态,当中一定会出现坏账,我们不能知道到底会最终有多少坏账出现。
3.客户贷款需求多集中在什么金额范围内?多选择多久还款期限?
客户一般能从lending club贷到不超过3.5万美元,选择三年还的人比较多。
4、利率在什么范围内?
lending club贷款利率平均值是在13.2%,还是比较低的。总体范围在5.3%--29.0%之间。
5.Lenging club信用等级风控模型是否管用?坏账出现出现在哪个信用等级上了?
1.很有意思的是坏账并没有随着评分等级而正相关,‘G’的贷款中坏账反而最少,要知道他们的利率是最高的!有可能是因为lending club的风控措施对‘G’的客户拒贷了,控制了这部分风险。
2.‘A’的坏账少得益于信用好,这个可以理解。这当中恐怕最不能理解的就是‘C’的坏账最多。中间等级的坏账都不怎么好。看来对于‘C’‘D’两级的风控评分政策得要重新调整下比较好了。
6.工作多少年对于贷款发放来说是好的,什么是不好的
坏账竟然很多出现在工作10年以上的客户身上,不过我们看到对工作10年以上的客户发放基数是最大的。对工作10年以上客户的风控审查得更加严格比较好,推测可能是工作10年以上的用户负债压力的大的缘故。
网友评论