美文网首页
花书 深度模型中的优化(阅读笔记)

花书 深度模型中的优化(阅读笔记)

作者: 辛兆福 | 来源:发表于2020-02-11 20:57 被阅读0次

    深度学习(花书)

    第二部分 深度网络:现代实践

    第八章 深度模型中的优化

    本章主要关注数值优化问题:寻找神经网络上一组参数θ,他能显著降低代价函数J(θ),该代价函数通常包括整个训练集上的性能评估和额外的正则化项

    通常代价函数可以写作训练集的平均:
    J(θ) = E_{(x,y)\sim\hat{p}_{data}} L(f(x,θ),y)
    L是每个样本的损失函数
    f(x,θ)是预测输出,y是目标输出
    \hat{p}_{data}是经验分布
    以有限样本的经验分布代替未知数目样本的真实分布
    最小化经验风险:
    J(θ) = E_{(x,y)\sim\hat{p}_{data}} L(f(x,θ),y) = \frac{1}{m} \sum\limits_{i =1}^{m}{L(f(x^{(i)},θ),y^{(i)})}
    m为训练样本数量

    代理损失函数:用于替代损失函数,旨在解决损失函数效能不足的问题

    基于采样的梯度估计算法可以在以损失n倍均值标准差的代价换取n^{2}倍的计算量的减少

    批量(确定性)算法:使用整个数据集优化
    随机(在线online)算法:每次使用单个样本优化
    批量(单独在文本中出现时):一组样本
    批量大小(单独在文本中出现时):小批量的大小
    小批量(批量随机)算法:介于上述两者之间 使用部分样本 常取值为2^{32}\sim2^{256}

    梯度截断:调节因梯度剧烈变化带来的剧烈变化的步长
    学习率:必要时可以使得学习率随条件的变化而变化
    动量:随训练时长可以不断调整步长

    超参数的设置

    批标准化:自适应重参数化的方法,旨在解决超深层网络难以训练的问题

    坐标下降:优化问题的拆解

    优化模型比优化算法更容易

    相关文章

      网友评论

          本文标题:花书 深度模型中的优化(阅读笔记)

          本文链接:https://www.haomeiwen.com/subject/cpatfhtx.html