-1- Batch
参数更新时求最优的方式
-1.1- Batch Gradient Descent
,批梯度下降
batch size
= 全部数据集
遍历全部数据集计算一次损失函数,进行一次参数更新,这样得到的方向能够更加准确的指向极值的方向,但是计算开销大,速度慢;
-1.2- Stochastic Gradient Descent
,随机梯度下降
batch size
= 一条样本
对每一个样本计算一次损失函数,进行一次参数更新,优点是速度快,缺点是方向波动大,忽东忽西,不能准确的指向极值的方向,有时甚至两次更新相互抵消;
-1.3- Mini-batch Gradient Decent
,小批梯度下降
batch size
= 设定的一个中间的小值
前面两种方法的折中,把样本数据分为若干批,分批来计算损失函数和更新参数,这样方向比较稳定,计算开销也相对较小。Batch Size
就是每一批的样本数量。
-2- Iteration
迭代,可以理解为w和b的一次更新,就是一次Iteration。
-3- Epoch
样本中的所有样本数据被计算一次就叫做一个Epoch。
-4- 计算题
比如在训练一个模型过程中,epoch = 10,全部样本量=1000w条,batch_size = 200,求:训练到此时,模型的参数iterate了多少次?
网友评论