信用评分:第四部分 - 变量选择
基本原理
审视数据“少花钱多办事”是信用资质的主要理念,而信用风险模型是实现这一目标的手段。使用自动化流程并关注关键信息,可以在几秒钟内完成信用决策 - 最终可以通过更快地制定决策流程来降低运营成本。更少的问题和快速的信贷决策最终会提高客户满意度。对于贷方而言,这意味着扩大其客户群,接受风险较小的客户并增加利润。
如何实现简约性以及要查找的关键信息是什么?答案是在信用风险建模过程的下一步 - 变量选择过程中找到的。
作为数据准备的结果创建的挖掘视图是多维客户的唯一签名,用于发现潜在的预测关系并测试这些关系的强度。在根据客户签名中发现的特征创建一组可测试假设时,对客户签名进行全面分析是一个重要步骤。这种分析通常被称为商业洞察,它提供了对客户行为趋势的解释,旨在指导建模过程。
业务洞察分析的目的是:
- 验证客户的衍生数据是否符合业务理解。例如,洞察力分析应该支持业务声明,即债务与收入比率较高的客户更有可能违约;
- 为分析模型结果提供基准;
- 塑造建模方法
业务洞察分析使用的工具类似于通过结合单变量和多变量统计数据以及不同的数据可视化技术进行探索性数据分析。典型的技术有相关分析,交叉表分析,分布,时间序列分析以及监督和非监督分割分析。分割特别重要,因为它确定何时需要多个评分卡。
基于业务洞察分析的结果,变量选择首先将挖掘视图划分为至少两个不同的分区:训练和测试分区。训练分区用于开发模型,测试分区用于评估模型的性能和验证模型。
图1.简化评分卡模型构建过程
变量选择
变量选择是在模型训练期间测试一系列候选模型变量的显著性。候选模型变量也称为自变量,预测变量,属性,模型因子,协变量,回归量,特征或特征。
变量选择是一个简约的过程,旨在识别最大增益的预测器(预测准确性)的最小集合。这种方法与数据准备相反,其中尽可能多的有意义的变量被添加到挖掘视图中。达到这些相反的要求需要追求简约; 也就是说,在给定的约束下找到最小的选择偏差。
关键目标是找到一组正确的变量,这样记分卡模型就能够,不仅可以根据客户的坏账可能性对客户进行排名,还可以估算出坏账的可能性。这通常意味着在预测模型中选择统计上显著的变量,并且具有一组平衡的预测变量(通常8-15被认为是良好的平衡),以收敛到360度的客户视图。除了客户特定的风险特征,我们还应考虑包括系统风险因素,以解释经济漂移和波动。
说起来容易做起来难 - 在选择变量时,存在许多限制。首先,该模型通常包含一些高度预测变量,其使用受到法律,道德或监管规则的禁止。其次,在建模或生产阶段,某些变量可能不可用或质量较差。此外,可能存在未被认识到的重要变量,例如,由于人群样本偏差,或者由于多重共线性,他们的模型效应会违反直觉。最后,业务将永远掌握最后的发言权,并可能坚持只包含业务可靠变量,或要求单调增加或减少影响。
所有这些约束都是潜在的偏差来源,这使数据科学家们面临一项挑战性的任务,即尽量减少选择偏差。变量选择期间的典型预防措施包括:
- 与该领域的专家合作,确定重要变量;
- 意识到与数据来源,可靠性或误测量有关的任何问题;
- 清理数据;
- 使用控制变量来计算禁止变量或特定事件,如经济漂移。
重要的是要认识到变量选择是在整个模型构建过程中发生的迭代过程。
- 在模型拟合之前开始减少变量,通过将挖掘视图中的变量数量减少为一组可管理的候选变量;
- 在模型训练过程中继续缩减变量,由于统计不显著,多重共线性,低贡献或惩罚以避免过度拟合来进一步减少变量;
- 在模型评估和验证过程中进行; 和
- 在业务审批期间确定最终变量,模型可读性和可解释性在这里起着重要作用。
在达到“最佳点”之后,变量选择结束 - 意味着在模型精度方面不能再实现改进。
图2.变量选择过程的迭代性质有多种可变选择方法可供选择。随着机器学习的进步,这个数字一直在增加。变量选择技术取决于我们是使用变量减少还是变量消除(过滤),选择过程是在预测模型内部还是外部进行; 我们是否使用有监督或无监督学习; 或者如果基础方法基于特定的嵌入式技术,例如交叉验证。
表1.信用风险模型中典型的变量选择方法
图3.使用双变量分析的变量选择
在信用风险建模中,两种最常用的变量选择方法是在模型训练之前用于过滤的信息值和在逻辑回归模型的训练期间用于变量选择的逐步选择。尽管两者都受到了从业者的批评,但重要的是要认识到没有理想的方法存在,因为变量选择的每种方法都有其优点和缺点。使用哪一个以及如何最好地将它们组合起来并不是一件容易解决的任务,需要扎实的领域知识,对数据的良好理解以及广泛的建模经验。
上一篇:信用评分:第三部分 - 数据准备和探索性数据分析
下一篇:信用评分:第五部分 - 评分卡开发
本文翻译转载自https://www.worldprogramming.com/blog/credit_scoring_pt4。
网友评论