花书深度模型中的优化(阅读笔记)

作者: 辛兆福 | 来源:发表于2020-02-11 20:57 被阅读0次

深度学习(花书)

第二部分深度网络：现代实践

第八章深度模型中的优化

本章主要关注数值优化问题：寻找神经网络上一组参数θ，他能显著降低代价函数J(θ)，该代价函数通常包括整个训练集上的性能评估和额外的正则化项

通常代价函数可以写作训练集的平均：
$J(θ) = E_{(x,y)\sim\hat{p}_{data}} L(f(x,θ),y)$
L是每个样本的损失函数
f(x,θ)是预测输出，y是目标输出
$\hat{p}_{data}$ 是经验分布
以有限样本的经验分布代替未知数目样本的真实分布
最小化经验风险：
$J(θ) = E_{(x,y)\sim\hat{p}_{data}} L(f(x,θ),y) = \frac{1}{m} \sum\limits_{i =1}^{m}{L(f(x^{(i)},θ),y^{(i)})}$
m为训练样本数量

代理损失函数：用于替代损失函数，旨在解决损失函数效能不足的问题

基于采样的梯度估计算法可以在以损失n倍均值标准差的代价换取 $n^{2}$ 倍的计算量的减少

批量(确定性)算法：使用整个数据集优化
随机(在线online)算法：每次使用单个样本优化
批量(单独在文本中出现时)：一组样本
批量大小(单独在文本中出现时)：小批量的大小
小批量(批量随机)算法：介于上述两者之间使用部分样本常取值为 $2^{32}\sim2^{256}$

梯度截断：调节因梯度剧烈变化带来的剧烈变化的步长
学习率：必要时可以使得学习率随条件的变化而变化
动量：随训练时长可以不断调整步长

超参数的设置

批标准化：自适应重参数化的方法，旨在解决超深层网络难以训练的问题

坐标下降：优化问题的拆解

优化模型比优化算法更容易

网友评论

本文标题：花书深度模型中的优化(阅读笔记)

本文链接：https://www.haomeiwen.com/subject/cpatfhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

花书深度模型中的优化(阅读笔记)

深度学习(花书)

第二部分深度网络：现代实践

第八章深度模型中的优化

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

花书 深度模型中的优化(阅读笔记)

深度学习(花书)

第二部分 深度网络：现代实践

第八章 深度模型中的优化

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

花书深度模型中的优化(阅读笔记)

第二部分深度网络：现代实践

第八章深度模型中的优化