美文网首页
Look-alike 模型好坏要关注 AUC 和 KS

Look-alike 模型好坏要关注 AUC 和 KS

作者: saai | 来源:发表于2017-07-03 20:03 被阅读0次

    有时候知道要做一个监督学习的分类模型, 但是没有直接的正反例。

    往往会根据业务人员的经验,根据一些规则来筛选一批正反例,然后根据已有的特征库和这些正反例来训练模型。

    模型干的事就是跟正反例 Lookalike 的情况划分。

    这种模型我们怎么评估?召回和准确率不再能直接反应模型的好坏,因为规则的正例可能混入了很多反例。

    所以我们更关注AUC, 它代表跟正例相似分数高于跟负例相似的样本的概率;

    还可以计算双样本 Kolmogorov-Smirnov test (Wikipedia), 一个样本是正例的分数集合,一个样本是负例的分数集合。

    D值越大,代表两个分布越不同,即代表通过模型将两个样本集的区分情况越强,一般D值是>=20 , 模型可用。

    这类模型的优化可以以AUC 和K-S Test 中D值的提高来作为标准。

    Spark 里面有K-S Test 的计算

    为什么看D值, 这里有解释

    相关文章

      网友评论

          本文标题:Look-alike 模型好坏要关注 AUC 和 KS

          本文链接:https://www.haomeiwen.com/subject/sjgbwttx.html