特征评估

作者: shudaxu | 来源:发表于2019-03-12 21:25 被阅读0次

    1、(训练前)特征本身覆盖率
    特征本身对样本的覆盖程度

    2、(训练前)特征本身在目标上的区分度
    连续值分label分布概率PDF(正样本上该特征值的PDF,负样本该值的PDF,其交叉区分程度)
    离散值分label分布(类似连续值,也可以获得其正负样本上的PMF)
    单特征AUC(连续值可以压缩值域来计算,离散值也可以用出现不出现0,1,p和非p,来转化为单特征值AUC)
    PS:对于分布的区分度,可以通过KL散度来进行数值化评估

    3、(训练阶段)判断特征对模型的贡献度
    增减特征后的对比实验,计算两种方式训练模型后,模型在测试集的AUC

    4、(预估阶段判)断特征对模型的贡献度
    在预估的时候对某个slot的值赋予随机值,或者0,再来计算测试集AUC。与原基线AUC有较大跌幅,则重要性高,跌幅越低,则重要性越低。
    PS:有时候用4方法,跟3方法,2方法得到的结果不相同。比如现有模型中已有一个跟待估特征有较强的线性相关性。则就算其对目标有较好的区分度,在3,方法中可能也体现出不增益。但是特征本身是有价值的

    相关文章

      网友评论

        本文标题:特征评估

        本文链接:https://www.haomeiwen.com/subject/amuopqtx.html