一、问题准备
需要做出的决策和解决的问题
1、特定业务重点(过退,风险,动支。。。)确定好坏客户的标签定义
2、确定计划的评分卡范围、开发、实施的窗口
解释:
3、获取的数据范围和来源,确保能够获取到数据,内部,外部
可能不同的业务场景能获取到的数据不同,有些场景存在缺失
4、项目管理计划 时间、资源、人员
二、数据获取与整合
取得数据项,并且将其整合为适合进一步数据准备的形式
通常,数据表中的每一行代表一个账户
这是评分卡开发的首要任务
1、原始变量:
易于理解,可能不是最有效
2、衍生业务指标:
来源于原始变量,有明确业务含义,可能比原始变量更有效
3、分析变量:
原始数据进行转换和加工计算生成具有较高预测能力的变量
缺少简单或清晰的含义
建模视图包含以下变量:
1、记录标识:唯一的符号或者识别变量
2、候选自变量:所有可能被用于预测模型中预测变量的字段,包括原始变量,衍生业务指标,分析变量
3、描述变量:包含其他字段取值的标识或描述的字段(将复杂的离散数据提取转换成简单的)
4、报告变量:并不直接用建模,但是用于作报告
(动支金额,逾期金额之类的,辅助判断模型的好坏)
5、标签状态字段:好坏客户
自变量包含如下三种类型:
1、分类变量,之间没有顺序和数量关系,这些值不能进行数学运算;性别,居住地...
2、顺序变量,在类别中定义了顺序的概念;等级 1,2,。。。
3、连续变量,取值表示真实数量规模的真正指标
数据来源
1、人口统计特征: 客户基本属性
2、征信数据,外部评分
3、交易记录 :某个时间窗口的频率和汇总值
4、其他产品的使用情况
建模窗口、实施窗口
数据校准
网友评论