吴恩达 DeepLearning.ai
总结:大牛介绍的特别清晰,连笔记都那么的清晰- -
已移步至 语雀
第二节课---改善深层神经网络:超参数调试、正则化以及优化
训练、验证、测试集
小数据时代,按70%,30%(或60%,20%,20%)的比例划分是非常合理的。在大数据时代,这个比例趋向变得更小。保证三个数据集来自同一分布。
偏差、方差的权衡
1.存在高偏差:增加网络结构,如增加隐藏层数目;训练更长时间;寻找合适的网络架构,使用更大的NN结构
2.存在高方差:获取更多的数据;正则化;寻找合适的网络结构
正则化
1.L1、L2正则
2.Dropout正则化:dropout的一大缺点就是其使得 Cost function不能再被明确的定义,因为每次迭代都会随机消除一些神经元结点,所以我们无法绘制出每次迭代下降的图。
3.其他正则化方法:数据扩增、提前终止、归一化输入、

梯度消失和爆炸
1.利用初始化缓解梯度消失和爆炸问题,不同激活函数对应不同的初始化方法
2.选择不同的激活函数
采用mini-batch梯度下降法
使用不同的优化器
学习率衰减

局部最优问题
在高纬度的情况下,几乎不可能陷入局部最小值点;处于鞍点的停滞区会减缓学习过程,利用如Adam等算法进行改善
为超参数选择合适的范围
在神经网络中融入batch norm
1.可以加速神经网络的训练,和输入层输入特征归一化原理一致
2.Batch Norm 可以加速神经网络训练的另外一个原因是它可以使权重比网络更滞后或者更深层:Batch Norm的作用便是其限制了前层的参数更新导致对后面网络数值分布程度的影响,使得输入后层的数值变得更加稳定。另一个角度就是可以看作,Batch Norm 削弱了前层参数与后层参数之间的联系,使得网络的每层都可以自己进行学习,相对其他层有一定的独立性,这会有助于加速整个网络的学习
3.有轻微正则化的效果
4.如果训练时使用了batch norm,测试集也需要使用batch norm
softmax
第三节课---结构化机器学习项目
参考machine learning yearning - andrew ng
网友评论