mini-batch size = m则为批梯度下降 进行梯度下降时处理全部的训练样本
size=1 即为随机梯度下降 随机梯度下降每次只处理训练样本中的一个训练数据 往往只是朝着局部最优的方向下降,噪声比较大,随机梯度下降不会收敛到全局的最小值只会朝着最小值方向不断下降
本文标题:深度学习
本文链接:https://www.haomeiwen.com/subject/xipcxftx.html
网友评论