癌症分类问题
存在一种极端的例子:有一行代码不是机器学习代码,它忽略了输入值X,它让y总是等于0。 因此它总是预测没有人得癌症,那么这个算法实际上只有0.5%的错误率,因此这甚至比机器学习得到的1%的错误率更好。这是一个非机器学习算法,因为它只是预测y总是等于0。
癌症分类问题的极端个例一个极端,在这个例子中正样本的数量与负样本的数量相比非常非常少, 因为y=1非常少,我们把这种情况叫做偏斜类。
偏斜类有一个不同的误差度量值,或者不同的评估度量值,其中一种评估度量值叫做查准率(precision)和召回率(recall)。其效果比仅仅只用分类误差或者分类精度好。
查准率和召回率
网友评论