最大似然函数的合理性
极大似然估计的思想是,被观测到的数据,能够以最大的概率代表总体的特征


MSE(Mean Square Error)均方误差
假设模型为

则MSE为

模型推导
背后的假设
实际上在一定的假设下,我们可以使用最大化似然得到均方差损失的形式。假设模型预测与真实值之间的误差服从标准高斯分布(μ=0,σ=1),则给定一个xi,模型输出真实值 yi 的概率为

上式推导:
推导:Y=Y_pre+η(误差/噪声)
E(Y)=E(Y_pre+η)=Y_pre+E(η)=Y_pre
Var(Y)=Var(Y_pre+η)=0+Var(η)=1
所以Y~N(Y_pre,1),即有上式的表达。
进一步我们假设数据集中 N 个样本点之间相互独立,则给定所有 x,输出所有真实值 y的概率,即似然概率,为所有p(yi|xi)的累乘

通常为了计算方便,我们通常最大化对数似然 Log-Likelihood

去掉无关项,然后转化为最小化负对数似然 Negative Log-Likelihood

MAE推导与MAE类似(把误差假设成拉普拉斯分布)
MSE和MAE背后的假设
在一定的假设下,使用最大化似然得到均方差损失的形式。
发现最大似然函数和损失函数在形式上具有同一性(大体上互为相反数),而最大似然函数表示值越大,当前的模型表示的越准。同样,损失函数值越小(公式上对应着最大似然你函数越大),表示当前模型越准。因此,当假设成立时,损失函数使用均方差函数是一个很好的选择。
网友评论