ABSTRACT

4 CHARACTERIZING EXAMPLE FORGETTING

既然是实验文章，我们直接上实验结果：

在不同难度数据集上差异巨大：简单的如图a，>90%的样本都是不会遗忘的，困难的如图c，仅30%样本不会被遗忘。这一特性可能和数据集本征维数有关联。

image.png

可遗忘的和不会遗忘的样本首次学习到正确分类的时间会不会有所差异呢？见下图。
作者观察得到结论：不可遗忘的样本一般简单，在该样本在训练过程中出现几次时就能学会；会遗忘的样本则要出现很多次才能学会。
【编者注：没太看懂这个图为什么会有三种颜色】

image.png

下图的实例观察进一步验证了这个结果，会遗忘的都是特征不明显的，不会遗忘的特征都很简单、清楚。

image.png
进一步，作者故意把一些样本反着label，让它们在那个label中变成一个特征非常异常的样本，结果看到这些样本全都会遗忘，而且遗忘次数很多。

image.png

这一节的实验很有意思也很关键。作者想切实看一看，到底从哪些样本中学习才能学到关键知识，是从可遗忘的较难的样本中学比较好，还是从哪些特征显著的，简单的不会遗忘的样本中学习比较好。
具体来说，作者从样本中捞了10k个点，分成两组，称为两个分区，用这两个分区的样本交替训练两个分类器。

如下图a，样本是随机选的，随机分的，在第一阶段，用第一分区的样本训练两个分类器，得到的测试结果发现第一分区的样本精度很高，第二分区的精度则很低；这个现象是作者没想到的，因为两个分区毕竟是随机同分布的，理论上应该差不多才对，不过也没有进一步解释；
在第二阶段，用第二分区的样本进行训练，发现对第一分区的部分测试开始有遗忘；第二分区的测试精度迅速上升，之后在遗忘和学习中小幅交替。

image.png

上面随机的一组是对照组，我们重点关注图b。图b将两个分区分为未遗忘过的样本和遗忘过的样本。可以观察到的不同现象是：
学习未遗忘的样本时，遗忘样本的精度下降非常大，明显比随机要大，观察b.2;
学习遗忘过的样本时，未遗忘样本的下降其实不大，观察c.2.