深度学习(花书)
第二部分 深度网络:现代实践
第八章 深度模型中的优化
本章主要关注数值优化问题:寻找神经网络上一组参数θ,他能显著降低代价函数J(θ),该代价函数通常包括整个训练集上的性能评估和额外的正则化项
通常代价函数可以写作训练集的平均:
L是每个样本的损失函数
f(x,θ)是预测输出,y是目标输出
是经验分布
以有限样本的经验分布代替未知数目样本的真实分布
最小化经验风险:
m为训练样本数量
代理损失函数:用于替代损失函数,旨在解决损失函数效能不足的问题
基于采样的梯度估计算法可以在以损失n倍均值标准差的代价换取倍的计算量的减少
批量(确定性)算法:使用整个数据集优化
随机(在线online)算法:每次使用单个样本优化
批量(单独在文本中出现时):一组样本
批量大小(单独在文本中出现时):小批量的大小
小批量(批量随机)算法:介于上述两者之间 使用部分样本 常取值为
梯度截断:调节因梯度剧烈变化带来的剧烈变化的步长
学习率:必要时可以使得学习率随条件的变化而变化
动量:随训练时长可以不断调整步长
超参数的设置
批标准化:自适应重参数化的方法,旨在解决超深层网络难以训练的问题
坐标下降:优化问题的拆解
优化模型比优化算法更容易
网友评论