美文网首页
评分卡之特征选取

评分卡之特征选取

作者: 数据小黑升值记 | 来源:发表于2018-08-13 20:44 被阅读0次

    简单评分卡可能有几十个特征,多的可能有几百个,所以必须减少这个数量,否则分析任务太重,因为模型的分类是一个不断尝试优化的过程,并且对计算的要求很高,逻辑回归和决策树尤其高,所以降维就非常有必要。

    参考因素

    我们考虑是否要把一个特征纳入模型中,主要参考因素包括特征是否:

    • 符合逻辑且可解释
    • 有较强的预测能力
    • 与其他变量相关性较低
    • 稳定且便于获得
    • 合规,没有法律或者伦理的限制
    • 与消费者相关,且不是贷款机构的策略
      -去掉后,信息损失很大

    逻辑性

    我们的最终目的是建立一个稳健的模型,不仅在运用时能很好的运用,在之后相当长一段时间内也能正常工作,这就需要特征符合逻辑,这也有助于解释业务,并能更好的被公司接受。

    预测性

    我们关注预测力较强的特征,他们也许可以使模型更有价值,在比较候选特征时,信息值、卡方值这些统计量可以提供参考依据,可以毫无作用和特别有用的特征找出来。

    相关性

    很过时候,特征的相关性很高,特别是相同或相似输入计算的特征,这回导致多重共线性,导致模型在训练样本外表现很差,特征分组需要提前定义,如果没有定义,我们只能通过剔除特征和粗分类来消除多重共线性 。

    可得性和稳定性

    特征需要满足:在系统中可得,保持稳定。但现实中,特征可能是:中断的,不可再生;新生的,数量太少;不稳定,由于系统变化会出现问题;敏感的,对通货膨胀敏感,如收入;篡改的,受到人为操作,被用户或工作人员篡改。

    合规性

    数据要符合法律、政策和伦理上的规定。

    关联性

    在评估个人风险时,特征应与消费者相关,而不是与贷款机构的策略相关。个人风险应独立于决策结果,否则会导致因果关系混乱。

    信息损失最小

    剔除特征要保证信息损失最小,有些特征可能存在争议、不太显著等,但剔除后最终模型的解释力变弱了,有时候将这种特殊特征加入模型甚至会改变决策。

    预测能力

    评价预测能力的三种方法:卡方值,信息值和基尼系数。我们也可以把三种统计量结合起来用,对所有特征计算三个统计量,根据每个统计量对特征排序,先以信息值为X轴绘制排序排序。

    降维方法

    在剔除没有作用的特征后,依旧有很多候选特征,这时需要其他一些处理方法:
    建模处理
    在构建模型时,我们可以使用逐步回归的方法,选择最能解释目标变量的自变量。
    人工检查相关矩阵
    使用相关的变量会导致多重共线性,这里强调的是变量,而不是特征,因为使用虚拟变量和风险变量,替代原始特征后,我们分析的是转换后变量的相关性,但因为这个过程很繁琐,一般人仍然只检查原始特征的相关性。
    因子分析
    因子分析,是一种描述性统计方法,帮助我们理解数据,是一种变量降维的工具,它能处理一系列内部相关的特征,并把它们转化为少量且不相关的因子,我们用这种因子建立回归模型。

    变量输入

    现在我们已经决定了用哪些特征来建模,还需要确定怎样完成建模,每种统计方法都以各自的方式决定将变量引入模型的顺序。这里涉及两个概念:分步,大多数统计软件都有自动的标准算法选择变量;分块手动创建分组,每块作为整体在分步进入模型。

    分块有两种类型:独立的,对每块变量单独开发评分卡,然后再用一个总评分卡或取证,把它们整合到一起,这主要适用于来自不同数据源的数据;依次的,每块系数是固定的,作为下一阶段回归的输入,这种方式更强调前期确定的变量。

    相关文章

      网友评论

          本文标题:评分卡之特征选取

          本文链接:https://www.haomeiwen.com/subject/ejzubftx.html