非均衡分类问题

作者: 程序猿爱打DOTA | 来源:发表于2017-04-23 13:01 被阅读0次

y'/(1-y') = y/(1-y)*m-/m+

基本策略——“再缩放” rescaling

混淆矩阵

正例判为正例： True Positive 反例判为反例: True Negative, 正例判为负例: False Negative, 负例判为正例: False Positive

正确率 = TP/(TP+FP)

召回率 = TP/(TP+FN)

ROC曲线： x轴假阳率，y轴真阳率，好的分类器应尽可能处于左上角

1.欠抽样：删除样例，时间开销小,代表性算法EasyEnsemble,利用集成学习，将反例划分为若干个集合供不同学习器使用，对每个学习器都是欠抽样，但全局来看不会造成信息丢失

2.过抽样：复制样例，不是直接简单复制，而是采用插值来产生额外的正例，代表算法SMOTE

3.直接基于原始训练集进行学习，但在预测阶段，进行“阈值移动“

正例少，反例多，如果对正例进行过抽样，容易导致过拟合。

网友评论

本文标题：非均衡分类问题

本文链接：https://www.haomeiwen.com/subject/zpxyzttx.html

非均衡分类问题