书名:计算机视觉40例从入门到深度学习:OpenCV-Python
作者:李立宗
出版社:电子工业出版社
出版时间:2022-07-01
ISBN:9787121436857
第15章 机器学习导读
15.2 机器学习基础概念
15.2.5 性能度量
一、定义
- 在机器学习构造模型后需要对模型的泛化能力进行度量,这就是性能度量。
- 大部分性能度量只能针对某一个特定类型的任务,如分类、回归。
- 在实际应用中,应该采用能够代表产生错误代价的性能指标来进行性能度量。
二、示例
以二分类问题为例来说明性能度量。
-
考虑一个分类任务:一个分类器用来观察肿瘤并判断肿瘤是恶性的还是良性的。
在对该分类器进行性能度量时最容易想到的标准是准确率或者预测正确的比例,但是该标准无法度量恶性肿瘤被预测为良性肿瘤、良性肿瘤被预测为恶性肿瘤的数据。
通常情况下,误差的代价是相似的,很显然,将恶性肿瘤预测为良性肿瘤比将良性肿瘤预测为恶性肿瘤的代价更大。 -
对于上述二分类问题,可以将其真实的标签与预测的标签划分为四种不同情况,其分类矩阵如表15-1所示,通过该分类矩阵可以度量每种可能的预测结果。
表15-1 分类矩阵
根据上述定义,
-
准确率ACC为 :
-
查准率P(预测为恶性肿瘤实际也为恶性肿瘤的比例,又称精准率)为
-
查全率R(真正的恶性肿瘤被发现的比例,又称召回率)为
三、结论
-
从准确率的定义可以看到,高准确率的分类器并不一定可靠,因为它也许并不能预测到大部分恶性肿瘤。
例如,在一组测试数据中,如果大部分肿瘤都是良性的,即使该分类器未预测出一个恶性肿瘤,它也拥有较高的准确率。
更具体来说,某组测试数据有10万个样本,其中9.999万个样本是良性的,即使该分类器将所有的样本都预测为良性,其准确率仍是99.99%(9.99/10)。 -
在实践中,也许一个低准确率、高查全率的分类器更具实用价值。
-
上述是针对二分类问题的性能衡量。在实践中可以将多种不同的性能度量指标分别应用于分类与回归任务的度量中。
网友评论