美文网首页
第六章 深度前馈网络

第六章 深度前馈网络

作者: QQYang | 来源:发表于2017-10-26 09:12 被阅读0次

    6.2 基于梯度的学习

    神经网络的非线性导致代价函数变成了非凸函数,意味着基于梯度的迭代优化不一定能收敛到全局最优。

    所以,对代价函数的优化结果对于参数的初始值很敏感,需要将所有权重的初始化为小的随机数,偏置初始化为零或者小的正值

    6.2.1 代价函数

    6.2.1.1 使用最大似然学习条件分布

    代价函数

    (code:$\mathit{J(\theta )}=-\mathbb{E}_{x,y\sim \hat{p}_{data}}log\,p_{model}(y|x)$)

    中的期望所对应的分布是训练数据集的分布,P model的分布是神经网络所表示的分布

    因为log容易饱和,这里有两个办法来避免:1.取-log,2.输出单元具有指数形式,能够抵消log

    最大似然函数在实践中常常没有最小值,因为输出单元需要取+∞、-∞或0时才能让最大似然函数取到最小值

    6.2.1.2 学习条件统计量


    相关文章

      网友评论

          本文标题:第六章 深度前馈网络

          本文链接:https://www.haomeiwen.com/subject/hgshpxtx.html