在真实数据中,错误与噪音是不可避免的,对于这些问题的处理也同样非常重要。
错误评估
为了衡量模型的总体效果,我们统计总体错误,而总体误差的评估依据是每个数据点处所得到的误差情况。
image.png选择误差函数
以指纹识别为例进行说明:
f | f | ||
---|---|---|---|
+1 | -1 | ||
h | +1 | no error | 错误接受 |
h | -1 | 错误拒绝 | no error |
误差在不同的应用领域会带来不同的代价。
- 例如超市优惠权限验证
本应享受优惠的VIP受到拒绝时,可能会使得超市失去大客户。
而本不应该享受优惠的客户错误的给予优惠,并没有什么损失。
那么此时误差惩罚的权重应该对拒绝误差加重。
+1 | -1 | |
---|---|---|
+1 | 0 | 1 |
-1 | 10 | 0 |
- 例如中情局权限验证
本应享受优惠的VIP受到拒绝时,可能会使得超市失去大客户。
而本不应该享受优惠的客户错误的给予优惠,并没有什么损失。
让没有权限的人进入会产生严重后果。
而让雇员多次尝试后才进入并没有什么影响。
那么此时误差惩罚的权重应该对接受误差加重。
+1 | -1 | |
---|---|---|
+1 | 0 | 1000 |
-1 | 1 | 0 |
噪音数据
因为种种原因,我们所获得的数据不可能是纯净的,比如:
x1 = x2 但 y1 != y2
所以很多时候我们不直接使用 y = f(x) 而是使用p(y|x)
学习总结
学习过程中,下图中的上式是我们所知道的,下式是我们所需要求解出的。上式给了我们的模型泛化的能力,当我们所最终确定的函数g在样本中的误差Ein较小时,因为Eout≈Ein,那么就可以得到一个Eout ≈ 0的结果。
所以,学习问题被分为了两个部分:
image.png
以上两点无法同时满足,需要一些调和。
image.png
网友评论