参考:https://www.kuxiao.cn/course/pc-course-learning.html?cid=C59acca6fa17eb456c650e849
一、商业理解
信用,对个人和企业都是无比重要的品质。比如有了信用,个人可以向银行申请信用卡,可以透支国际长途电话费、汽车保险打折等。对于企业,则可以大量透支和贷款。所以,银行考查客户的信用状况是非常重要的事情。
信用评分
- 信用评分的方法是什么?
信用评分是使用统计模型的方法来对潜在客户和已有客户进行贷款风险评价的方法。 - 怎样计算客户的信用评分?
随着这种统计建模的方法的成熟应用,其思路已被广泛推广,诸如欺诈评分、市场响应评分等领域。 - 怎样考查客户的信用?
在美国,客户信用评分系统主要由FICO公司推出。FICO的评分系统得出,信用评分范围在300-850分之间,评分越高,违约率越低。在我国银行业,比较通用的方法也是类似的形式 。评分特别低和特别高的客户很少,大多数评分中等。 - 信用评分卡优缺点:
优点 :便于理解和使用,容易被各层次的人员了解和使用;
缺点 :假定各项因素对信用的影响关系是线性组合的。该假定在现实中并不普遍成立。
二、数据理解
- QUESTION 1:怎样将贷款风险问题转化为数据挖掘问题?
►小额贷款问题可以理解为有目标变量的预测问题,根据目标变量是否违约,来预测信贷帐号是否有风险。
►客户是否按期归还贷款?
►银行把按期归还贷款理解为”好“的信贷帐号,对应的客户为”好“客户
►把不能按期归还贷款的理解为”坏“的信贷帐号,对应的客户为”坏“客户。 - QUESTION 2:如何获取数据?
银行可以从系统中提取大量关于贷款人的资金使用、消费、以及还贷款的情况数据,这些数据包括(但不限于)以下变量:
►帐户存在时间
►过去12个月最严重的拖欠行为(没有拖欠、1个月拖欠、两个月拖欠等)
►过去12个月的平均贷款金额
►过去6个月的还款占欠款比例
►过去6个月现金提取占交易金额比例
►过去6个月平均刷卡额
►过去6个月消费(刷卡)类型。。。。。
三、数据准备
离散化
►离散化可以降低异常数值的影响
►离散化使贝叶斯评分模型更易理解
四、建立模型
4.1 建立模型与模型评估
- 建立什么模型?
朴素贝叶斯模型,预测违约评分(0~1) - 朴素贝叶斯模型有什么问题?
对于违约的预测能力差:违约类的查全率很小,接近0 - 为什么存在这个问题?
在朴素贝叶斯模型中,判定违约的后验概率confidence(1)的阈值设定为0.5 - 如何解决这个问题?
♦ 修改confidence(1)的阈值
♦ 修改后的阈值使分类代价(将1归类为0的代价是30,将0归类为1的代价是1)达到最小 - 修改方法:
♦ 从0开始,每次将阈值加1%
♦ 计算阈值对应的分类代价,取最小的分类代价及其对应的阈值
4.2 建立朴素贝叶斯违约评分模型
- Declare Missing Value
将“收入”字段中值为100000.0判定为缺失值
将“在现住址时间”和在现工作时间“值为999判定为缺失值
-
Discretize
离散化,记得将离散化类型定为标量化属性interval,用于后期贝叶斯分类,同时remove useless -
Loop
子过程- 循环计算分类代价
生成变量iteration,从1开始每次循环加1,直到50
1)Generate Macro
function description: threadhold=%{iteration}*0.01
2)Validation3)Generate Attributes
function description: threshold=%{threshold} -
append
将每次循环得到的结果整合在一起
要使修改后的阈值使分类代价(将1归类为0的代价是30,将0归类为1的代价是1)达到最小,选取分数最低值的threadhold,即最佳阈值
4.3 保存朴素贝叶斯模型
五、模型应用
1)Generate Attributes
记得将模型训练时的离散化结果应用到测试集,这样模型才能有效运行
2)Create Threadhold
应用模型训练时得到的最佳阈值
网友评论