在深度学习训练过程中,batch size有三种选择:
- batch mode(batch模式),batch size = total dataset,每次迭代时间最长,Loss值最稳定
- stochastic mode(随机模式),batch size = total dataset,每次迭代时间最短,但Loss抖动最厉害
- Mini-batch mode(Mini-batch模式),1< batch size < total dataset,每次迭代时间适中,Loss值较稳定
在Mini-batch 模式下,选择batch size考虑的因素主要是适配(fit) CPU/GPU的内存位宽,所以,通常取2的整数幂,例如:16,32,64,128...
- 32是一个最常用的默认值
- batch size过大会导致 memory overflow
网友评论