主题:
少样本跨语言迁移学习比基于多语言预训练模型在无样本学习上迁移效果更好,但是这项工作目前没有标准化的实验流程,可解释性欠缺,于是这篇论文设计实验深入分析了,少样本跨语言迁移学习任务,主要证实了少样本的选取对任务结果的影响很大
贡献:
- 证实少样本跨语言迁移学习任务的表现,很大程度取决于下游任务的选择,(根据下游任务不同有很大的动态变化性)
- 为了解决上一个问题,发布了一个固定的标准少样本数据集(benchmark)去支持该任务的标准化评估和促进其可复现性
- 实验探究证实少样本跨语言迁移学习,针对不同任务表现差异很大的原因所在
- 分析了目前sota的一些少样本学习方法,发现他们的表现不如简单的全部模型fine-tune 方法
实验:
source-training:pretrained mBERT finetuned with abundant annotated English data
target-adapting:source-trained model from previous stage is adapted to a target language using few shots
task-selection:CLS & NER & POS
细节:
- 假设实验效果不确定性来自于模型太复杂和新样本数太少,
对比实验:fixed random seed 和 random seeds
同样的训练数据,不同的随机种子有1-2个百分点的变动,关键还有小样本的不同导致的实验结果变化 - 少样本的数目影响:1-shot 带来相对不错的提升,随着k增加,提升渐渐降低
- 个例分析的时候发现很容易过拟合
- 不同下游任务的影响,
• 分类任务通过关键词匹配有不错的效果
• matching a few important opinion and sentiment words in the target language brings large gains already
• NLI任务需要很强的语义理解的任务,模型表现会差很多
• POS and NER:1. 这两个任务不需要很高的语义理解或者推理 2.由于训练数据和测试数据都是独立同分布假设,他们很可能有重合的词汇表标签样本集中的标签很容易迁移到测试集合验证集 - 不同语言的影响:
和源语言差别很大的,有很少词汇重合的,语系相差大的,效果反而会比同语系的语言迁移效果更好,
原因:对于这些少样本跨语言迁移模型可以引入更多的词汇和结构的信息来,引导更新embedding和transformer layer,效果的提升也证明了小样本迁移模型的有效性。
也证实了小样本的重要性,他们涵盖了目标语言的特定信息, - The fewer overlaps/features a target language shares with EN, the larger the gain FS-XLT achieves
- Source-Training 很重要,证实模型直接在目标语言上迁移的话效果会打折扣,所以证明了在源语言上经过训练的模型确实学到了一些有效的特征
- importance of Lexical Features(词汇特征重要性):
9.探究了几种主流的Target-Adapting Methods:
COS+Pooler.
FC+Pooler
FC+only
FC(reset)+Pooler
conclusion:
- Our results show that large language models tend to overfit to few shots quickly
- mostly rely on shallow lexical features present in the few shots, though they have been trained with abundant data in English.
- Moreover, we have empirically validated that state-of-the-art few-shot learning methods in computer vision do not outperform a conceptually simple alternative: Full model finetuning.
总结:
- 发现了总结了少样本跨语言迁移学习不稳定性的原因
2.对语义依赖强的不好迁移,语义依赖不强句法结构依赖强的好迁移,因为依赖句法结构的搜索空间越小,依赖语义的搜索空间巨大 - 少样本的选取很重要,但是没有具体说明如何选取(该问题很难,是未来探究的重要点)
网友评论