一、 基本指标
- 准确率:正确样本占总样本的比例
- 误差率:错误分类样本占总样本的比例
基于准确率和误差率,可以衍生出混淆矩阵的概念:
名词及其缩写 | 模型预测 | 实际也是正(1) |
---|---|---|
True Positive(TP) | 正(1) | 正(1) |
True Negative(TN) | 负(0) | 负(0) |
False Positive(FP) | 正(1) | 负(0) |
False Negative(FN) | 负(0) | 正(1) |
二、衍生指标
指标 | 定义 | 公式 |
---|---|---|
Accuracy(正确率) | 模型总体的正确率,即模型能正确预测、识别0和1的对象数量与预测对象的比值 | (TP+TN) / (TP+FP+TN+FN) |
Error Rate(错误率) | 模型总体的错误率 | 1 - Accuracy |
Sensitivity(敏感度) | 模型正确识别为正的对象占全部观察对象中实际为正的对象数量的比值 | TP / (TP+TN) |
Specificity(特效性或真负率) | 模型正确识别为负(0)的对象占全部观察对象中实际为负(0)的对象数量的比值 | TN / (TN+FP) |
Precision(精度或查准率) | 模型的精度是指模型正确识别为正(1)的对象占模型识别为正(1)的观察对象总书的比值 | TP / (TP+FP) |
False Positive Rate(错正率) | 模型错误地识别为正的对象数量占实际为负的对象数量的比值 | 1 - Specificity |
Negative Predictive Value(负元正确率) | 模型正确识别为负(0)的对象数量占模型识别为负的观察数量总数的比值 | TN / (TN+FN) |
False Discoverery Rate(正元错误率) | 模型错误识别为正的对象数量占模型识别为正的观察对象总数的比值 | FP / (TP+FP) |
相关sklearn函数:
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
三、其他指标
ROC曲线
ROC曲线是一种有效比较两个及以上分类模型的的可是工具,其显示了给定模型的灵敏性真正率与假正率之间的比较评定。
ROC曲线下面的面积越大,准确度越高;面积约接近0.5,准确率越低。
以上是一些教材中对ROC曲线的定义,而在sklearn中,对ROC曲线有不同的解读。
在sklearn中,ROC曲线以TP比率为纵轴,以FP比率为横轴,并将ROC曲线与坐标轴之间的面积定义为AUC值,AUC越接近1,代表模型准确率越高;AUC等于0.5,代表模型准确率与随机猜测准确率一致;AUC小于0.5,代表模型效果不如随机猜测。
- sklearn相关函数:
from sklearn.metrics import roc_auc_score
四、关于模型优化的说明
4.1 数据挖掘模型的有话要遵循有效、适度的原则
- 有效原则:模型的结论或应用效果是否满足当初的业务需求
- 适度原则:模型满足有效标准时,模型还是可以继续投入资源、投入精力去持续优化的,即继续不断提升模型的精度、转化率等,但是必须要考虑投入产出之间的性价比是否合适,是否适度。
4.2 如何有效地优化模型
4.2.1 从业务思路上优化
从业务思路上优化可以从以下几个层面进行考虑:
- 有没有更加明显且直观的规则、指标可以代替复杂的建模?
- 有没有一些明显的业务逻辑(业务假设)在前期的建模阶段被疏忽了呢?
- 通过前期的初步建模和数据熟悉,是否有新的发现,甚至能颠覆之前的业务推测或业务直觉呢?
- 目标变量的定义是否稳定(在不同时间点抽样验证)?
4.2.2 从建模的技术思路上优化
从建模的技术思路上优化,指的是在建模的总体技术思路、总体技术方向进行比较、权衡。建模的总体技术思路包括不同的建模算法、不同的抽样方法、有没有必要通过细分群体来建模等。
4.2.3 从建模的技术技巧上优化
建模技巧更多的是“锦上添花”的作用,业务思路才是建模优化的主要措施。
相关文章:
网友评论