2. 错误与噪音

作者: edwin1993 | 来源:发表于2018-04-02 11:17 被阅读5次

    在真实数据中,错误与噪音是不可避免的,对于这些问题的处理也同样非常重要。

    错误评估

    为了衡量模型的总体效果,我们统计总体错误,而总体误差的评估依据是每个数据点处所得到的误差情况。

    image.png
    选择误差函数

    以指纹识别为例进行说明:


    f f
    +1 -1
    h +1 no error 错误接受
    h -1 错误拒绝 no error

    误差在不同的应用领域会带来不同的代价。

    • 例如超市优惠权限验证
      本应享受优惠的VIP受到拒绝时,可能会使得超市失去大客户。
      而本不应该享受优惠的客户错误的给予优惠,并没有什么损失。

    那么此时误差惩罚的权重应该对拒绝误差加重。

    +1 -1
    +1 0 1
    -1 10 0
    • 例如中情局权限验证
      本应享受优惠的VIP受到拒绝时,可能会使得超市失去大客户。
      而本不应该享受优惠的客户错误的给予优惠,并没有什么损失。
      让没有权限的人进入会产生严重后果。
      而让雇员多次尝试后才进入并没有什么影响。

    那么此时误差惩罚的权重应该对接受误差加重。

    +1 -1
    +1 0 1000
    -1 1 0
    噪音数据

    因为种种原因,我们所获得的数据不可能是纯净的,比如:
    x1 = x2 但 y1 != y2
    所以很多时候我们不直接使用 y = f(x) 而是使用p(y|x)

    学习总结

    学习过程中,下图中的上式是我们所知道的,下式是我们所需要求解出的。上式给了我们的模型泛化的能力,当我们所最终确定的函数g在样本中的误差Ein较小时,因为Eout≈Ein,那么就可以得到一个Eout ≈ 0的结果。


    所以,学习问题被分为了两个部分:


    image.png

    以上两点无法同时满足,需要一些调和。


    image.png

    相关文章

      网友评论

        本文标题:2. 错误与噪音

        本文链接:https://www.haomeiwen.com/subject/hkzbcftx.html