mini-batch size = m则为批梯度下降 进行梯度下降时处理全部的训练样本,如果训练样本的数据量很大,则,进行一次梯度下降要耗费很长时间
size=1 即为随机梯度下降 随机梯度下降每次只处理训练样本中的一个训练数据 往往只是朝着局部最优的方向下降,噪声比较大,随机梯度下降不会收敛到全局的最小值只会朝着最小值方向不断下降,失去了所有由向量化而带来的优势
mini-batch size = m则为批梯度下降 进行梯度下降时处理全部的训练样本,如果训练样本的数据量很大,则,进行一次梯度下降要耗费很长时间
size=1 即为随机梯度下降 随机梯度下降每次只处理训练样本中的一个训练数据 往往只是朝着局部最优的方向下降,噪声比较大,随机梯度下降不会收敛到全局的最小值只会朝着最小值方向不断下降,失去了所有由向量化而带来的优势
本文标题:深度学习 - 草稿
本文链接:https://www.haomeiwen.com/subject/dkikxftx.html
网友评论