
贝叶斯公式:
P(B|A) = [P(A|B)/P(A)]*P(B)
P(A|B) 是另外一个事件A和所求事件B,似然程度,P(AB)/P(B)
除以P(A)是A事件相对B事件似然程度的归一化。
似然和条件概率有点相似。比如P(B|theta) 就是B 的似然函数,只不过基于已知参数theta
也就是 标准相似度 * 先验概率

在抛硬币试验中。我们假定向上的概率是a ,大概是贝塔分布
贝塔分布
下面就是X∼Beta(α,β)X∼Beta(α,β)的概率密度函数



求theta的估计值。
模型过拟合欠拟合overfit underfit




模型的过拟合,概念是在训练集上表现良好,但是在测试集上表现很差。
那么如何来量化这个表现了,我们引入了损失函数。模型过拟合,使得在训练集上达到一个最小值。但是在测试集上。得到的损失函数值比较大。
y是估计的模型
那这个损失函数是 (ti-y(i)) 这个损失函数的均方误差,等于噪声的方差,和样本估计值的方差,还有偏差相关。 样本偏差定义为样本的y标签值和模型估计值之差。训练集过分使得样本偏差最小化,而忽略了,模型估计值的方差,忽略了数据集的变化所带来的影响。也就是经验风险最小化。
如何避免模型过拟合呢
正则化。 在损失函数后面加上代表模型复杂度的惩罚项。即使经验风险达到最小,但是模型复杂度就会变得很大。MAP 最大后延估计
偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;
方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;
噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。
通常,简单的模型variance小(不同数据上的结果差异较小),bias大,容易表现为欠拟合,需要增加模型复杂度,加入新的特征;复杂的模型variance大(表达能力强,对不同数据较敏感,结果差异较大),bias小(平均来说与真实结果较为接近),容易表现为过拟合,需要增加更多数据(非常有效,但不太现实)或者用正则化来控制模型的复杂程度。


网友评论