不同样本在训练模型时对于模型参数以及模型收敛的重要性是不同的。本文研究即从此处展开,研究了不同样本在不同训练时期对于模型不同参数的重要性,也称“样本重要性”(sample importance),下面对这篇文章进行简单的介绍。
本文将从以下四方面进行展开:
1、为什么研究这个,即本文是为了解决什么问题?(Why)
本文目的是通过研究不同样本(难样本、简单样本)在不同训练阶段(也就是不同的epoch)对于模型的不同参数(模型不同层的参数)的影响,来判断是用什么样本样本组织训练策略能提高模型的准确率和收敛速度。2、用了什么研究方法?(what)
本文从从以下几个方面对样本重要性进行研究:(1)不同的初始权重对样本有什么影响;(2)不同重要性的样本对于模型训练的贡献;(3)样本权重与其预测交叉熵的关系;(4)基于样本权重的聚类分析;(5)不同的样本构建策略的影响3、解决效果怎么样?(How)
本文将研究结果与已有结果进行比较,发现了较大的不同,已有研究表明按照训练样本的难度对其进行排序然后进行训练能得到更好的结果,然而本文研究表明,将难样本与普通样本进行混合能得到更好的结果。4、还有什么问题或者继续深入的研究方向?
(1)本文研究所用网络模型为3层隐藏层的模型,后续可对卷积网络或者循环神经网络进行进一步研究;(2)以样本重要性作为指导,研究如何使用最少的训练样本来得到充足样本时得到的训练结果。
本文研究采用的模型是一个三层隐藏层的全连接网络,使用数据集为MNIST手写数字数据集和cifar10数据集。
首先,我们来看看样本重要性是如何进行定义及计算的。
![](https://img.haomeiwen.com/i4264437/804fcb401254b956.png)
上图是一个loss函数,i表示样本,f(Xi, θ)表示预测结果,R(θ)表示正则化损失向。
接下来,我们给每个样本的loss添加一个权重vi,其中t表示epoch,
![](https://img.haomeiwen.com/i4264437/40b288fdd186f31d.png)
![](https://img.haomeiwen.com/i4264437/fa5b69db66188994.png)
当我们改变样本权重vi时,对参数的影响有多大呢?这可以通过对vi的求导来得到:
![](https://img.haomeiwen.com/i4264437/956d6a210bc80ad9.png)
φit表示第i个样本在第t个epoch对模型参数的影响。因而φi,jt表示第i个样本在第t个epoch对模型第j个参数产生的影响。因此,第i个样本对第d层模型的参数产生的影响可以表示如下:
![](https://img.haomeiwen.com/i4264437/a39229c3498384ed.png)
上面的αit就表示第i个样本在第t个epoch对整个模型产生的影响,而Ti则表示第i个样本在整个训练过程中对模型产生的影响。
1、不同权重初始化对于样本重要性的影响
首先,我们想要知道对于不同的权重初始化,样本重要性是否基本稳定不变。这里使用了3个随机种子进行了3次权重初始化。使用斯皮尔曼等级相关系数来衡量不同初始化时样本重要性与模型之间的关系。结果表明,样本重要性与权重初始化无关,不同的权重初始化条件下样本权重基本稳定。
![](https://img.haomeiwen.com/i4264437/046e656ec8637cb5.png)
2、不同样本对于模型的贡献
这里我们计算了不同类别的样本对于模型的贡献。结果表明:(1)不同时期,样本重要性不同;(2)不同样本对于模型不同层的参数贡献不同,相同样本对于模型不同层的贡献也不同;(3)不同类别的样本对于模型的贡献不同。
此外,本文按样本重要性将研究样本分为三类,top 10%,top 10%~20%,剩余的部分。研究表明大部分样本的样本重要性都非常小,而小部分重要性样本却对模型具有重要贡献。
3、样本重要性与交叉熵损失的关系
一般而言,我们认为一个样本的交叉熵损失越大,其越难以训练,对于模型训练的贡献也就越大。然而,本文研究表明,事实并非总是如此,(1)大部分情况下,随着训练,样本重要性和交叉熵损失的相关性越来越大;(2)也有一些例外情况,虽然交叉熵损失很大,但是其样本重要性却很小。(个人思考,是否是此样本别的类别相似性太大导致的,类似于错误labeled)。![](https://img.haomeiwen.com/i4264437/fbf219e230f3a3f9.png)
4、基于样本权重的聚类分析
通过epoch-specific, layer-specific sample importance将样本聚为几类。研究不同难度的样本在不同时期的样本重要性。如下图,可以知道,简单样本在训练早期具有较高的样本重要性,对模型贡献较大,而在中期则是中等难度的样本重要性高,对模型训练贡献大,到了训练后期,则主要是难样本重要性高,贡献大。![](https://img.haomeiwen.com/i4264437/e8ffed1e9935d904.png)
5、不同的样本构建策略的影响
为了了解基于样本重要性或样本交叉熵损失的不同训练样本batch构建策略对模型训练的影响,我们采用了7种不同的构建batch的方式:
- 随机取样. Rand: Randomly constructed batch. All 50k samples are randomly split into b batches before training. The batches and orders stay fixed during training.
- 按交叉熵大小顺序取样. NLO: Negative Log-likelihood Order. We sort all the samples based on their final NLL from low to high. The batches are constructed based on the sorted samples. First 100 samples with least NLL are in B1, 101 to 200 samples are in B2, and so on. Hence, during training, the batches with small NLL will be trained first.
- 按交叉熵大小逆序取样. RNLO Reverse-Negative Log-likelihood Order. We construct the batches same as NLO. During training, we update the batches in reverse order Bb; Bb−1; : : : ; B1. Hence, the batches with large NLL will be trained first.
- 按交叉熵损失大小混样本取样. NLM Negative Log-likelihood Mixed. We sort all the samples based on their final NLL from low to high. Next, for each sample i in the sorted sequence, we put that sample into batch j = (i mod b) + 1. This ordering constructs batches out of samples with diverse levels of NLL.
- 按样本重要性顺序取样. SIO: Sample Importance Order. Similar to NLO, except that we sort all the samples based on their sum sample importance over all epochs from low to high. Hence, batches with small sample importance will be trained first.
- 按样本重要性逆序取样. RSIO Reverse-Sample Importance Order. We construct the batches same as SIO. During training, we update the batches in reverse order Bb; Bb−1; : : : ; B1. Hence, during training, the batches with large sample importance will be trained first.
- 样本重要性混合取样. SIM Sample Important Mixed. Similar to NLM, but we sort the samples based on overall sample importance. Thus, batches contain samples with divers sample importance.
![](https://img.haomeiwen.com/i4264437/f162a2ab51e82aed.png)
简单总结
虽然已有研究表明,模型训练时按照‘先易后难’的顺序能取得更好的结果,但是本研究表明并非如此。本研究显示,在早期主要是简单样本起主要贡献,而在训练后期主要是难样本起到主要作用。其次,简单样本对于训练网络模型的高层参数具有主要贡献,而难样本则是对于模型低层参数具有重要贡献 (个人猜测是简单样本可以很容易训练得到更加抽象通用的特征,但是对于难样本则需要去低层去微调精修图像的基础细节特征以此来对高级抽象特征进行微调。)
潜在问题及研究方向
(1)由于本文研究采用的是3层全连接网络,其一是网络层数不够深,可能不够具有代表性,后续可采用深层的经典卷积模型或循环神经网络来进一步研究证明。
(2)以样本重要性作为指导,研究如何使用最少的训练样本来得到充足样本时得到的训练结果。
网友评论