评分卡之特征选取

作者: 数据小黑升值记 | 来源:发表于2018-08-13 20:44 被阅读0次

评分卡之特征选取
互联网金融申请评分卡介绍
信用评分模型开发-基于R语言（1）
第四章：分类
申请评分卡目录
风控建模流程
评分卡模型开发-定量特征筛选
风控(一) 评分卡开发
决策树
基于R语言的申请评分卡

简单评分卡可能有几十个特征，多的可能有几百个，所以必须减少这个数量，否则分析任务太重，因为模型的分类是一个不断尝试优化的过程，并且对计算的要求很高，逻辑回归和决策树尤其高，所以降维就非常有必要。

参考因素

我们考虑是否要把一个特征纳入模型中，主要参考因素包括特征是否：

符合逻辑且可解释
有较强的预测能力
与其他变量相关性较低
稳定且便于获得
合规，没有法律或者伦理的限制
与消费者相关，且不是贷款机构的策略
-去掉后，信息损失很大

逻辑性

我们的最终目的是建立一个稳健的模型，不仅在运用时能很好的运用，在之后相当长一段时间内也能正常工作，这就需要特征符合逻辑，这也有助于解释业务，并能更好的被公司接受。

预测性

我们关注预测力较强的特征，他们也许可以使模型更有价值，在比较候选特征时，信息值、卡方值这些统计量可以提供参考依据，可以毫无作用和特别有用的特征找出来。

可得性和稳定性

特征需要满足:在系统中可得，保持稳定。但现实中，特征可能是：中断的，不可再生；新生的，数量太少；不稳定，由于系统变化会出现问题；敏感的，对通货膨胀敏感，如收入；篡改的，受到人为操作，被用户或工作人员篡改。

合规性

数据要符合法律、政策和伦理上的规定。

关联性

在评估个人风险时，特征应与消费者相关，而不是与贷款机构的策略相关。个人风险应独立于决策结果，否则会导致因果关系混乱。

信息损失最小

剔除特征要保证信息损失最小，有些特征可能存在争议、不太显著等，但剔除后最终模型的解释力变弱了，有时候将这种特殊特征加入模型甚至会改变决策。

预测能力

评价预测能力的三种方法：卡方值，信息值和基尼系数。我们也可以把三种统计量结合起来用，对所有特征计算三个统计量，根据每个统计量对特征排序，先以信息值为X轴绘制排序排序。

降维方法

在剔除没有作用的特征后，依旧有很多候选特征，这时需要其他一些处理方法：
建模处理
在构建模型时，我们可以使用逐步回归的方法，选择最能解释目标变量的自变量。
人工检查相关矩阵
使用相关的变量会导致多重共线性，这里强调的是变量，而不是特征，因为使用虚拟变量和风险变量，替代原始特征后，我们分析的是转换后变量的相关性，但因为这个过程很繁琐，一般人仍然只检查原始特征的相关性。
因子分析
因子分析，是一种描述性统计方法，帮助我们理解数据，是一种变量降维的工具，它能处理一系列内部相关的特征，并把它们转化为少量且不相关的因子，我们用这种因子建立回归模型。

变量输入

现在我们已经决定了用哪些特征来建模，还需要确定怎样完成建模，每种统计方法都以各自的方式决定将变量引入模型的顺序。这里涉及两个概念：分步，大多数统计软件都有自动的标准算法选择变量；分块手动创建分组，每块作为整体在分步进入模型。

分块有两种类型：独立的，对每块变量单独开发评分卡，然后再用一个总评分卡或取证，把它们整合到一起，这主要适用于来自不同数据源的数据；依次的，每块系数是固定的，作为下一阶段回归的输入，这种方式更强调前期确定的变量。

网友评论

本文标题：评分卡之特征选取

本文链接：https://www.haomeiwen.com/subject/ejzubftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

评分卡之特征选取

参考因素

逻辑性

预测性

相关性

可得性和稳定性

合规性

关联性

信息损失最小

预测能力

降维方法

变量输入

相关文章

评分卡之特征选取

互联网金融申请评分卡介绍

信用评分模型开发-基于R语言（1）

第四章：分类

申请评分卡目录

风控建模流程

评分卡模型开发-定量特征筛选

风控(一) 评分卡开发

决策树

基于R语言的申请评分卡

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读