数据获取与整合
2.1 变量类型
1.原始变量:数据库提取的,易于解释但不一定最有效。
2.衍生业务指标:来源于原始变量,有明确业务涵义。通过在实施阶段通过计算得到。
3.分析变量:对原始数据进行转换和计算加工而生成的具有较高预测能力的变量。缺少简单or清晰的定义
2.2 建模视图(包含预测模型中将使用的所有变量的数据集)
1.记录标识(ID变量):唯一符号或识别变量
2.候选自变量:所有可能被用于预测模型中预测变量的字段。
3.描述变量:包含其他字段取值的标识或描述的字段
4.报告变量:
5.违约状态字段:二元变量
2.3 数据来源
1.人口统计特征:客户基本属性(家庭收入,性别,年龄,居住状况)
2.征信机构数据和外部评分:
3.交易记录:频率因素:记录特定时间发生的次数
4.其他产品所有权和使用记录:汇总值(账户余额和交易值得计算和汇总统计)
2.4 建模与实施窗口
行为评分卡是用特定时间段的建模视图的数据开发的。——>建模窗口
2.5 数据校准
行为评分卡开发中使用的变量在开发窗口的时间跨度内收集并进行校准。对这些变量进行的任何计算都应当使用相同的时间窗口。
关于如何定义现在:对于从何时开始看,影响到了违约状态字段。
对于由“现在”的定义or其他出现的问题的两种可行的解决办法:
①考虑可能的缺失值,重新定义计算值(后延或前伸) ——>可以考虑为数据的填充
②使用感兴趣的事件,而不是根据日历时间进行数据校准。消除了基准时间“现在”和日历时间的关联性
2.6 数据合并
数据合并要求在数据的院子水平进行某程度的聚合
1.连续变量: 宏%TRollup 进行合并(基于均值)
2.名义变量和顺序变量:使用众数更加恰当
使用宏%VarMode
2.7 数据整合(合并和联结)
1.合并:用一个常用的关键变量,eg(客户ID)集合不同来源的数据。
建模视图要求关键变量的每一个唯一值 ——>使用SAS数据步语句:MERGE-BY
2.联结:将一个数据集的内容添加到另一个没有重复的常用字段的数据集末端
其并不检查ID变量的唯一性
SAS中的联结通过一个SAS数据步中的SET语句将数据集编列成表来实现。
2.8 完整性检验
1.行级的唯一性 每个账户为一行 %ExtUnique
2.范围和取值: 连续变量的值应当在一定的预期范围内,而名义变量应取特定的已知值
3.缺失值: 识别建模视图中每个字段的缺失值及其来源
4.样本完整性: 建模视图的基础是从数据库中抽样基本检验就是确保建模视图中不同变量的分布不会显著偏离总体中的分布。
EDA和数据描述
3.1 基本了解
1.数据的初步分析包括:
①每个候选预测变量的统计特征和分布
②候选预测变量与状态变量之间的以及预测变量相互间是否存在关联性或相关性。
③检查缺失值和极端值,并评估他们对结果模型的冲击。
④调查候选预测变量中正常和违约的分布情况。
2.EDA实践过程:
①描述性统计,eg对每个变量的单变量统计。
②评估每个变量值得分布并检验正态假设。
③极端值的识别和处理。
④缺失值的计算和处理。
⑤关键变量的列联表以及这些表格中统计量的计算。
⑥变量间相关性和关联性指标的计算。
3.2 单变量统计
大多数单变量统计量可以用PROC UNIVARIATE计算:
1.矩:均值,众数,标准差
2.位置和变化率的基本统计指标
3.均值位置的检验
4.分位数,如第一个和第三个四分位数
5.极端观测值,包括极大值与极小值
3.3 变量分布
直方图用于绘制连续变量的分布图,而饼图或条形图则用于名义变量和顺序变量。
1.一个变量占分布的主导地位,其他所有类频数较低。 ———>可将其他类别划为一个超级组
2.有很多的类别,即高基数性,这种情况下需要将这些类别划分成更少的组别。
3.4 特征分析(对变量进行的广泛分析)
1.分析:对连续变量的分段并对每段中正常和违约分布的检查 其目的是:揭示违约率和备选预测变量之间的关联性
eg:信用评分中,已用信用额度与可用信用额度的比率——>高违约率与高利用率相关联。
2.要素分析中定义分段常用的方法:可以使用宏 %CheAnalysis
①每段中都包含等量的观测值。连续变量的每段的取值范围宽度并不相同。——等高度分段
②等宽度分段
3.5 列联表
列联表就是用两个或更多变量建立频率表。 PROC FREQ与PROC TABULATE可以计算和绘制
3.6 极端值的识别
1.信用评分卡两个隐含的假设:
①违约状态是预测变量的函数。
②建模数据集中使用的自变量由一个变量生成,该过程可以表现为一个单一的分布。
假设表示:数据来源于某些分布或某个过程生成。
2.处理方法:
①大多数情况下,被认为是极端值的观测值会被删除,或者重置为更为典型的某个值。
②当被认定为极端值的观测值数量很大时,则需考虑将总体区分为两个独立的数据集(分群),单独设置评分卡。
3.识别极端值:
①为每个变量设定一个正常取值范围。 基于每个变量的独立检验,没有考虑数据的多元属性 宏%Extremes
连续变量:一般可以设置为:均值+/-3倍标准差
名义变量与顺序变量:某一类别的频数
②建立在生成数据的过程是具有特定函数形式的模型。
可以用已知数据拟合该模型,严重偏离被拟合模型的观测值被视为极端值。
③用聚类算法将数据分为较小的子集,即簇和群。只包含较小数量观测值的簇,被认为极端值 宏%PROC FASTCLUS
④依据决策树发现少量观测值的持续结点
网友评论