美文网首页
信用风险评级模型开发流程---EDA(探索性数据分析)与数据描述

信用风险评级模型开发流程---EDA(探索性数据分析)与数据描述

作者: ghostdogss | 来源:发表于2019-03-07 09:13 被阅读0次

    EDA(探索性数据分析)与数据描述,该步骤主要是获取样本总体的大概情况,以便制定样本总体的数据预处理方法。描述样本总体情况的指标主要有缺失值情况、异常值情况、平均值、中位数、最大值、最小值、分布情况等。 

    在sql中如何数据描述:


    缺失值情况、异常值情况、平均值、中位数、最大值、最小值

    数据准备和数据预处理是整个信用风险模型开发过程中最重要也是最耗时的工作了。通常情况下,数据准备和数据预处理阶段消耗的时间占整个模型开发时间的80%以上,该阶段主要的工作包括数据获取、探索性数据分析、缺失值处理、数据校准、数据抽样、数据转换,还包括离散变量的降维、连续变量的优先分段等工作。 

    主要包括缺失值情况、异常值情况及其他处理方法。缺失值和异常值处理的基本原则是处理前后的分布总体保持一致。

    用户数据缺失值处理


    在信用风险评级模型开发的第一步我们就要进行缺失值处理。缺失值处理的方法,包括如下几种。 

    (1) 直接删除含有缺失值的样本。 

    (2) 根据样本之间的相似性填补缺失值。 

    (3) 根据变量之间的相关关系填补缺失值。 

    直接删除含有缺失值的样本时最简单的方法,尤其是这些样本所占的比例非常小时,用这种方法就比较合理,但当缺失值样本比例较大时,这种缺失值处理方法误差就比较大了。在采用删除法剔除缺失值样本时,我们通常首先检查样本总体中缺失值的个数,在R中使用complete.cases()函数来统计缺失值的个数。

    相关文章

      网友评论

          本文标题:信用风险评级模型开发流程---EDA(探索性数据分析)与数据描述

          本文链接:https://www.haomeiwen.com/subject/wcmqhqtx.html