1、(训练前)特征本身覆盖率
特征本身对样本的覆盖程度
2、(训练前)特征本身在目标上的区分度
连续值分label分布概率PDF(正样本上该特征值的PDF,负样本该值的PDF,其交叉区分程度)
离散值分label分布(类似连续值,也可以获得其正负样本上的PMF)
单特征AUC(连续值可以压缩值域来计算,离散值也可以用出现不出现0,1,p和非p,来转化为单特征值AUC)
PS:对于分布的区分度,可以通过KL散度来进行数值化评估
3、(训练阶段)判断特征对模型的贡献度
增减特征后的对比实验,计算两种方式训练模型后,模型在测试集的AUC
4、(预估阶段判)断特征对模型的贡献度
在预估的时候对某个slot的值赋予随机值,或者0,再来计算测试集AUC。与原基线AUC有较大跌幅,则重要性高,跌幅越低,则重要性越低。
PS:有时候用4方法,跟3方法,2方法得到的结果不相同。比如现有模型中已有一个跟待估特征有较强的线性相关性。则就算其对目标有较好的区分度,在3,方法中可能也体现出不增益。但是特征本身是有价值的
网友评论