Lecture 2 - Where does the error

作者: D_Major | 来源:发表于2019-02-24 14:19 被阅读0次

对均值μ的估算m, m≠μ, 但大量的m取均值等于μ, 是Unbiased Estimator.
但是对方差σ²的估算s², 当大量s²取均值时其并不等于σ², 是Biased Estimator, 一般来说s²要比σ²更小.
误差(error)来自于两点: 方差(variance)和偏差(bias), 目标是做到最小方差无偏估计. 类比于打靶, 方差相当于分散程度, 偏差相当于散布的中心点(平均值)和靶心的距离. 方差大则枪不好, 偏差大则瞄得不准.

对于variance较小的模型, 图像上表现为大量的f*(即预测曲线)较为集中. 通常比较简单的模型容易有较小的variance, 因为对不同的输入特征收到的影响较小.
次数越高的多项式, 每一次的f_star(即f*)会越不平滑,和f_hat(即f^)相差很远, 但对f_star求平均的f_bar(即f-)却和真正的函数曲线f_hat更为拟合.

如图所示, 简单的model每次f_star都差不多, 但是bias会很大, 因为model是一个function set, 低维的model维度(space)太低, 可能不包含target. 而复杂的model虽然维度高, 能包含target, 但是由于训练数据不够, 每次的训练数据都不同, 所以每次的f_star都不太一样, 但是对其求均值却会得到target(即f_bar).

当variance过大时, 会出现过拟合. 当bias过大时, 会出现欠拟合. 目标是取得二者中间的平衡点.

对于underfitting: 1.使用更复杂的模型 2. 增加更多输入特征
对于overfitting: 1. 使用更多的训练数据 2. 正则化(降低维度, 但是可能会损害bias, 从而space中不包含f_hat)

不要仅根据在测试集上的表现好坏就选择model, 因为实际的情况和测试集并不完全相同, 甚至通常测试集上表现好的在实际情况中表现并不好

所以要把训练集分成两部分, 用validation set去选择model, 在选定model后再把所有的数据都用于训练, 可解决数据不足问题.

如果担心validation set部分也存在偏差, 则可以每次都交替作为validation set, 求平均error. 再把全部training set去训练选出来的model.

网友评论

本文标题：Lecture 2 - Where does the error

本文链接：https://www.haomeiwen.com/subject/qaavyqtx.html

Lecture 2 - Where does the error