美文网首页
评分卡之特征选取

评分卡之特征选取

作者: 数据小黑升值记 | 来源:发表于2018-08-13 20:44 被阅读0次

简单评分卡可能有几十个特征,多的可能有几百个,所以必须减少这个数量,否则分析任务太重,因为模型的分类是一个不断尝试优化的过程,并且对计算的要求很高,逻辑回归和决策树尤其高,所以降维就非常有必要。

参考因素

我们考虑是否要把一个特征纳入模型中,主要参考因素包括特征是否:

  • 符合逻辑且可解释
  • 有较强的预测能力
  • 与其他变量相关性较低
  • 稳定且便于获得
  • 合规,没有法律或者伦理的限制
  • 与消费者相关,且不是贷款机构的策略
    -去掉后,信息损失很大

逻辑性

我们的最终目的是建立一个稳健的模型,不仅在运用时能很好的运用,在之后相当长一段时间内也能正常工作,这就需要特征符合逻辑,这也有助于解释业务,并能更好的被公司接受。

预测性

我们关注预测力较强的特征,他们也许可以使模型更有价值,在比较候选特征时,信息值、卡方值这些统计量可以提供参考依据,可以毫无作用和特别有用的特征找出来。

相关性

很过时候,特征的相关性很高,特别是相同或相似输入计算的特征,这回导致多重共线性,导致模型在训练样本外表现很差,特征分组需要提前定义,如果没有定义,我们只能通过剔除特征和粗分类来消除多重共线性 。

可得性和稳定性

特征需要满足:在系统中可得,保持稳定。但现实中,特征可能是:中断的,不可再生;新生的,数量太少;不稳定,由于系统变化会出现问题;敏感的,对通货膨胀敏感,如收入;篡改的,受到人为操作,被用户或工作人员篡改。

合规性

数据要符合法律、政策和伦理上的规定。

关联性

在评估个人风险时,特征应与消费者相关,而不是与贷款机构的策略相关。个人风险应独立于决策结果,否则会导致因果关系混乱。

信息损失最小

剔除特征要保证信息损失最小,有些特征可能存在争议、不太显著等,但剔除后最终模型的解释力变弱了,有时候将这种特殊特征加入模型甚至会改变决策。

预测能力

评价预测能力的三种方法:卡方值,信息值和基尼系数。我们也可以把三种统计量结合起来用,对所有特征计算三个统计量,根据每个统计量对特征排序,先以信息值为X轴绘制排序排序。

降维方法

在剔除没有作用的特征后,依旧有很多候选特征,这时需要其他一些处理方法:
建模处理
在构建模型时,我们可以使用逐步回归的方法,选择最能解释目标变量的自变量。
人工检查相关矩阵
使用相关的变量会导致多重共线性,这里强调的是变量,而不是特征,因为使用虚拟变量和风险变量,替代原始特征后,我们分析的是转换后变量的相关性,但因为这个过程很繁琐,一般人仍然只检查原始特征的相关性。
因子分析
因子分析,是一种描述性统计方法,帮助我们理解数据,是一种变量降维的工具,它能处理一系列内部相关的特征,并把它们转化为少量且不相关的因子,我们用这种因子建立回归模型。

变量输入

现在我们已经决定了用哪些特征来建模,还需要确定怎样完成建模,每种统计方法都以各自的方式决定将变量引入模型的顺序。这里涉及两个概念:分步,大多数统计软件都有自动的标准算法选择变量;分块手动创建分组,每块作为整体在分步进入模型。

分块有两种类型:独立的,对每块变量单独开发评分卡,然后再用一个总评分卡或取证,把它们整合到一起,这主要适用于来自不同数据源的数据;依次的,每块系数是固定的,作为下一阶段回归的输入,这种方式更强调前期确定的变量。

相关文章

  • 评分卡之特征选取

    简单评分卡可能有几十个特征,多的可能有几百个,所以必须减少这个数量,否则分析任务太重,因为模型的分类是一个不断尝试...

  • 互联网金融申请评分卡介绍

    信用违约风险的基本概念 申请评分卡的重要性 申请评分卡所用到的数据与特征 非平衡样本的处理方法

  • 信用评分模型开发-基于R语言(1)

    目录 评分卡开发流程 数据的获取与整合 探索性数据分析 特征选择 粗分类与WOE变换 模型评估 评分卡开发 模型监...

  • 第四章:分类

    特征值选取 1、选择特征值 2、对特征值相关度进行评分 3、将数据进行标准化(最常用的方法时将所有数据都转化为 0...

  • 申请评分卡目录

    申请评分卡(1)——相关概念申请评分卡(2)——评分卡模型开发申请评分卡(3)——建模(R)

  • 风控建模流程

    以下以申请评分卡(A卡)建模为例,描述模型开发的基本流程:1.数据准备:定义目标变量,整合样本特征;划分数...

  • 评分卡模型开发-定量特征筛选

    在模型开发中,并不是所有的特征要全部筛选进模型,因为金融数据一般特征有很多,如果全部放入模型,一方面可能会引起“维...

  • 风控(一) 评分卡开发

    1.1 标准评分卡(分为:申请评分卡、行为评分卡) 1.申请评分卡,对新贷款申请进行筛选并判断其违约金 ...

  • 决策树

    决策树算法 一、特征选取 特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率。如果利用一个...

  • 基于R语言的申请评分卡

    1.引言 信贷行业中常见的评分卡包括:申请评分卡(Application)、行为评分卡(Behavior)、催收评...

网友评论

      本文标题:评分卡之特征选取

      本文链接:https://www.haomeiwen.com/subject/ejzubftx.html