背景:基于大规模的语言模型。在pretrain-fineTuning两阶段的范式下,pretrain 阶段,数据量较大,学习到的知识泛化能力较强。fine tuning阶段的数据往往是少量的。以前的工作,通常倾向aggressive。理解为,完全信任新数据,由小数据量的任务完全决定模型参数的更新。在这个过程中,很可能导致了过拟合,而使得效果下降或泛化能力的降低。
方法:为了延续模型的泛化能力,可通过只更新模型的一部分参数(子网络)来达到保留pretrain阶段学习到的知识,提高泛化能力的效果。而对于子网络的选择,分为随机及主动选择两种方式,即“任务无关”和“任务驱动”两种方式。其中,主动选择的方式重点在于以什么标准定义参数对于任务的重要程度。
任务无关:以一定比例,随机选择参数进行更新。
参数更新-伪代码任务驱动:选择标准为Fisher Information。用于估计随机变量(参数)里携带了多少分布参数(结果)的信息。对参数的估计比较耗时,因此在fine tuneZhi前,本文固定的导出了子网络,后面不再更新子网络。
实验:在公开的数据集上,以不同的fine-tune方式进行了实验。在指标上均有提升。并在跨领域、跨任务的数据上进行了验证。
网友评论