标题:DNN学习过程中样本遗忘的经验性研究
ABSTRACT
- 遗忘事件的定义:某个训练样本在训练过程中开始分类正确,后来却又分类错误,这类样本通常特征比较模糊;
本文观察到的现象:
- 某些样本高频遗忘,某些却从不遗忘;
- 遗忘现象分布在各种网络架构上;
- 基于遗忘的动态性,一大部分样本(不会被遗忘的)可以不用参与训练却仍能维持模型效果。
4 CHARACTERIZING EXAMPLE FORGETTING
既然是实验文章,我们直接上实验结果:
4.1 Number of forgetting events
在不同难度数据集上差异巨大:简单的如图a,>90%的样本都是不会遗忘的,困难的如图c,仅30%样本不会被遗忘。这一特性可能和数据集本征维数有关联。

4.2 First learning events
可遗忘的和不会遗忘的样本首次学习到正确分类的时间会不会有所差异呢?见下图。
作者观察得到结论:不可遗忘的样本一般简单,在该样本在训练过程中出现几次时就能学会;会遗忘的样本则要出现很多次才能学会。
【编者注:没太看懂这个图为什么会有三种颜色】

下图的实例观察进一步验证了这个结果,会遗忘的都是特征不明显的,不会遗忘的特征都很简单、清楚。

进一步,作者故意把一些样本反着label,让它们在那个label中变成一个特征非常异常的样本,结果看到这些样本全都会遗忘,而且遗忘次数很多。

4.3 CONTINUAL LEARNING SETUP
这一节的实验很有意思也很关键。作者想切实看一看,到底从哪些样本中学习才能学到关键知识,是从可遗忘的较难的样本中学比较好,还是从哪些特征显著的,简单的不会遗忘的样本中学习比较好。
具体来说,作者从样本中捞了10k个点,分成两组,称为两个分区,用这两个分区的样本交替训练两个分类器。
- 如下图a,样本是随机选的,随机分的,在第一阶段,用第一分区的样本训练两个分类器,得到的测试结果发现第一分区的样本精度很高,第二分区的精度则很低;这个现象是作者没想到的,因为两个分区毕竟是随机同分布的,理论上应该差不多才对,不过也没有进一步解释;
-
在第二阶段,用第二分区的样本进行训练,发现对第一分区的部分测试开始有遗忘;第二分区的测试精度迅速上升,之后在遗忘和学习中小幅交替。
image.png
上面随机的一组是对照组,我们重点关注图b。图b将两个分区分为未遗忘过的样本和遗忘过的样本。可以观察到的不同现象是:
- 学习未遗忘的样本时,遗忘样本的精度下降非常大,明显比随机要大,观察b.2;
- 学习遗忘过的样本时,未遗忘样本的下降其实不大,观察c.2.
这给到的一个启示是遗忘过的样本包含的信息量是更大的。基于此,作者考虑移除训练集中的一些样本,看看模型效果的变化。
- 左图:优先移除那些不会遗忘的和遗忘次数少的,可以看到移除35%左右,精度都不会有太大影响。
-
右图:固定移除10%的样本,移除遗忘少的能保持较高精度,反之则精度较低。
image.png
-
难度大(本征维数高)的数据集可以删除的样本比例会更少一些。
image.png
网友评论