美文网首页
评分卡知识查漏补缺

评分卡知识查漏补缺

作者: echolvan | 来源:发表于2019-12-26 17:20 被阅读0次

    制作评分卡时候,做变量相关性应该在哪一个步骤?
    做变量相关性分析,在WOE编码过后,带入模型之前合适。在变量WOE编码之后,因为变量可能在WOE编码前存在相关性,不过编码过后就不存在相关性了;当然有一些变量在WOE编码前不相关性,但是WOE编码后相关了。

    IV值是越高越好吗?
    一帮来说,变量IV小于0.02就不要带入模型了,但是IV>1.2过高,这个变量可能存在问题

    缺失值在什么比例可以直接剔除?
    缺失值一般在千分之一、万分之一可以直接剔除,否则可以使用均值填补,中位数等,也可以用随机森林,听说smote也可以做,没用过smote来填充过

    评分卡变量挑选使用什么方法好?
    评分卡模型IV方法挑选变量最佳,变量挑选方法有IV、LASSO,只用一种即可,不要混用。

    评分卡样本好坏样本最大比例是多少才不失衡?
    一般好坏样本不要超过20:1

    分箱时要注意的
    分箱里面不能全是好客户或者全是坏客户,否则不能计算WOE

    连续型变量可直接分箱

    类别型变量:

    (a)当取值较多时,先用bad rate编码,再用连续型分箱的方式进行分箱

    (b)当取值较少时:

       (b1)如果每种类别同时包含好坏样本,无需分箱
    
       (b2)如果有类别只包含好坏样本的一种,需要合并
    

    卡方分箱优化建议
    当变量取值大于100时候,我们可以先进行一个粗糙的等频分箱,加快程序运行速度

    评分卡模型在什么阶段会变量挑选呢?
    WOE后编码,单变量IV值过低可以剔除(IV值自己可以定,一般0.02)

    WOE后编码,变量与变量之间的关联性,使用皮尔逊系数来检验(可以定一个皮尔逊值,大于这个值,两个变量选择IV高的那个;IV无太大差别,变量数值比较多的,这样分数更有层次性)

    WOE后编码,变量的多重共线性,用VIF指标来衡量(一般VIF小于10则没有问题)

    逻辑回归后,变量的P值不显著,也要剔除(注意,每剔除一次要重新进行逻辑回归,重新算剩下变量对应的P值和系数)

    假如训练集分箱后,遇到的测试集的值不存在任何一个分箱,怎么处理?
    依照该变量分箱最差情况考虑

    为什么申请评分卡一定要使用WOE编码?
    WOE编码能反映出组和组之间的差距和我们分箱初衷一样,使用箱与箱之间差距大,箱内差距小

    相关文章

      网友评论

          本文标题:评分卡知识查漏补缺

          本文链接:https://www.haomeiwen.com/subject/ivdloctx.html