今天看到一篇比较好的讲三者关系的文章, 尤其讲了一些应用场景,觉得不错. 以下是译文
MAE – Mean Absolute Error
MAE 是对于整个测试集中,预测值和观察值的平均差异。
它将所有预测价格与实际价格之间的差异进行求和,然后将它们相加,然后除以观察次数。预测是高于还是低于实际价格都没有关系,算法只会查看绝对值,较低的值表示较高的精度。
在我们的案例中(原文有链接),MAE告诉我们,平均而言,我们的预测大约减少了24,213美元。这是好事还是坏事?为了进行比较,我们可以返回之前由Python打印的统计信息表,平均房价大约是493,091美元。通过简单的计算,我们可以得出误差大约是平均房价的5%,我认为这相当不错。但是,我们的训练和测试集非常小,当使用更大的数据集时,情况可能会发生重大变化。该数值越低越好。
当我们不太担心异常值时可以使用MAE。
MSE - Mean Squared Error
我个人不太关注MSE,因为我将其视为计算RMSE的前奏。但是,让我们看看它的含义。
- Mean: 均值
- Squared: 误差的平方。如果差异是2,MES就是4; 如果差异是3, MES就是9.
由于平方,它为较大的错误分配了更多的权重。然后,算法继续将它们相加并求平均值。如果你担心异常值,这是要查看的数字。请注意,因为有个平方,所以它的单位和数据单位不同。该数值越低越好。
RMSE - Root Mean Squared Error
MSE的平方根就是RMSE。该数字与要预测的值使用相同的单位。在我们的案例中,RMSE大约为$ 28,701。该值高于MAE,约为平均房价的6%。可以接受吗?完全取决于个人观点。
当你要查看离群值的时候,MSE和RMSE确实非常有用。你可以去研究这些异常值,并将其从数据集中完全删除。也许更好的方法是,更深入地了解它们。
我希望在对错误进行简短介绍之后,你可以就模型和预测的有用性做出更明智的决定。
[译文结束]
个人总结
- RMSE 和 MAE 因为和数据的单位相同,所以更具参考价值。
- MAE,RMSE 有差异,RMSE跟多收到 离群值(outlier)影响。
- MSE 因为会放大差异, 所以对发现离群值(outlier)有帮助。
- 利用RMSE, MAE 评估模型,需要结合预测值,计算出误差的百分比。
- 以上三者越低越好。
网友评论