6.2 基于梯度的学习
神经网络的非线性导致代价函数变成了非凸函数,意味着基于梯度的迭代优化不一定能收敛到全局最优。
所以,对代价函数的优化结果对于参数的初始值很敏感,需要将所有权重的初始化为小的随机数,偏置初始化为零或者小的正值
6.2.1 代价函数
6.2.1.1 使用最大似然学习条件分布
代价函数
(code:$\mathit{J(\theta )}=-\mathbb{E}_{x,y\sim \hat{p}_{data}}log\,p_{model}(y|x)$)中的期望所对应的分布是训练数据集的分布,P model的分布是神经网络所表示的分布
因为log容易饱和,这里有两个办法来避免:1.取-log,2.输出单元具有指数形式,能够抵消log
最大似然函数在实践中常常没有最小值,因为输出单元需要取+∞、-∞或0时才能让最大似然函数取到最小值
网友评论