数据集shuffle的重要性

作者: top_小酱油 | 来源:发表于2019-04-06 22:44 被阅读0次

数据集shuffle的重要性
tf.data.Dataset.shuffle(buffer_s
【Spark】Spark 存储原理--shuffle 过程
对数据集进行shuffle操作
Spark数据倾斜问题
MapReduce shuffle
NumPy记录
MapReduce Shuffle 和 Spark Shuffl
Spark Shuffle基础
hadoop之MapReduce---Shuffle机制

image

深度学习项目，在训练之前，一般均会对数据集做shuffle，打乱数据之间的顺序，让数据随机化，这样可以避免过拟合。

那为什么shuffle可以有效的避免过拟合？

以猫狗分类为例，

假如数据集是

Dog，Dog，Dog，... ，Dog，Dog，Dog，Cat，Cat，Cat，Cat，... ，Cat，Cat

所有的狗都在猫前面，如果不shuffle，模型训练一段时间内只看到了Dog，必然会过拟合于Dog，一段时间内又只能看到Cat，必然又过拟合于Cat，这样的模型泛化能力必然很差。

那如果Dog和Cat一直交替，会不会就不过拟合了呢？

Dog，Cat，Dog，Cat，Dog ，Cat，Dog，...

依然会过拟合，模型是会记住训练数据路线的，为啥呢？

首先我们需要明白固定的数据集顺序，意味着给定迭代步，对应此迭代步的训练数据是固定的。

假如目标函数是J(θ1, θ2)，则使用梯度下降优化J 。给定权重取值 θ1、θ2和迭代步step的情况下，固定的数据集顺序意味着固定的训练样本，也就意味着权值更新的方向是固定的，而无顺序的数据集，意味着更新方向是随机的。如下图中的A点，如果固定的更新方向是红色箭头方向，则很难收敛到最优点，而如果更新方向是随机的，则有可能就沿着白色箭头方向收敛到最优点。