美文网首页
【XTREME】

【XTREME】

作者: 唯师默蓝 | 来源:发表于2020-04-26 19:58 被阅读0次

XTREME:评估多语言泛化的大规模多语言多任务基准
摘要 机器学习模型应用于NLP的最新进展是由评估各种任务模型的基准驱动的。然而,这些覆盖范围广泛的基准测试主要局限于英语,尽管人们对多语言模型的兴趣越来越大,但是仍然缺少一个基准测试来全面评估这些方法对各种语言和任务的影响。为此,我们引入了多语言编码器(XTREME)基准的跨语言转换评估,这是一个多任务基准,用于评估40种语言和9个任务的多语言表示的跨语言泛化能力。我们证明,虽然英语测试的模型在许多任务上达到了人类的表现,但在跨语言迁移模型的表现上仍然有相当大的差距,特别是在句法和句子检索任务上。在不同的语言之间也有广泛的结果。我们发布基准1是为了鼓励对跨语言学习方法的研究,这些方法将语言知识转移到不同的、有代表性的语言和任务中。

介绍 在自然语言处理(NLP)中,迫切需要建立一个系统,为世界上大约6900种语言提供服务,以克服语言障碍,使世界公民能够普遍获取信息(Ruder et al., 2019;Aharoni等人,2019年;Arivazhagan等,2019b)。同时,由于数据的严重缺乏,为大多数这些语言构建NLP系统也具有挑战性。 幸运的是,许多语言在语法或词汇表方面有相似之处,而利用输入空间的共享结构进行多语言培训的多语言学习方法已经开始显示出缓解数据稀疏性的希望。该方向的早期工作集中于单个任务,如语法归纳(Snyder et al., 2009)、词性(词性)标记(T¨ackstr¨om et al., 2013)、解析(McDonald et al., 2011)和文本分类(Klementiev et al., 2012)。在过去的几年里,有一种趋势是通用的多语言表示,适用于许多任务,都是在单词级别上(Mikolov et al., 2013;Faruqui & Dyer, 2014;Artetxe et al., 2017)或全句级(Devlin et al., 2019;Lample & Conneau, 2019)。尽管这种表示是通用的,评价他们经常被执行在一个非常有限的,往往不同的组tasks-typically关注翻译(Glavaˇ年代et al ., 2019;Lample和Conneau, 2019)和classification(Schwenk和Li,2018;Conneau等人,2018b) - and typologically similar languages (Conneau等人,2018a)。为了解决这个问题,并激励真正通用的跨语言表示和转换学习的研究,我们引入了多语言编码器(XTREME)基准的跨语言转换评估。XTREME涵盖了12个语言家族的40种不同类型的语言,包括9个任务,需要对不同的语法或语义进行推理。另外,我们通过自动将自然语言推理和问答数据集的英语测试集翻译成其余语言,引入伪测试集作为涵盖所有40种语言的诊断。
XTREME专注于零镜头跨语言迁移场景,其中带注释的训练数据以英语提供,但没有以系统必须迁移的语言提供。我们评估了一系列最新的机器翻译(MT) 以及基于多语言表示的方法来执行此传输。 我们发现,尽管在考虑的许多任务上,最先进的模型在英语方面都接近人类的表现,但在用其他语言进行评估时,表现却大大下降。 总体而言,句法和句子检索任务的性能差异最高。 此外,尽管模型在印欧语系的大多数语言中都表现不错,但我们观察到了较低的性能,特别是对于汉藏语,日语,韩语和尼日尔-刚果语。
总之,我们的贡献如下:(i)我们发布了一套9个跨语言基准测试任务,覆盖40种不同类型的语言。(二)提供多语言模型评价的在线平台和排行榜。(iii)我们提供了一组强大的基线,我们对所有任务进行评估,并发布代码以促进采用。(iv)我们对最先进的跨语言模型的局限性进行了广泛的分析。

相关工作 跨语言表征的早期工作集中在使用平行语料库学习跨语言表征(Gouws et al., 2015;(Luong et al., 2015)或使用双语词典学习线性变换(Mikolov et al., 2013;Faruqui & Dyer, 2014)。后来的方法使用自我训练(Artetxe et al., 2017)和非监督策略,如对抗训练(Conneau et al., 2018a)、启发式初始化(Artetxe et al., 2018)和最优运输(Zhang et al., 2017),减少了所需的监督量。基于单语迁移学习的进展(McCann等,2017;Howard & Ruder, 2018;彼得斯等,2018;(Devlin et al., 2019),预训练编码器的多语言扩展最近被证明对学习深度跨语言表示是有效的(Eriguchi et al., 2018;皮雷斯等人,2019年;吴德雷兹,2019年;Lample & Conneau, 2019;Siddhant等人,2019年)。
跨语言表征评价的一个支柱是翻译,即在词汇层面(双语词汇归纳)或在句子层面(机器翻译)。在大多数情况下,评估仅限于类型学相关的语言和类似的领域;方法已经被证明失败在有利条件(Glavaˇ年代et al ., 2019;Vuli’c等人,2019年;Guzm ' an等人,2019年)。过去的工作也报告了双语词汇归纳的通用数据集的问题(Czarnowska et al., 2019;Kementchedjhieva et al ., 2019)和微弱的相关性与某些下游任务(Glavaˇ年代et al ., 2019)。然而,翻译只涵盖了模型跨语言综合能力的一个方面。例如,它没有捕捉到由于文化差异而导致的分类性能差异(Mohammad et al., 2016;Smith等人,2016)。
另一方面,跨语言的方法一直在评估各种任务,包括依赖解析(舒斯特et al ., 2019),命名实体识别(拉希米et al ., 2019),情绪分析(Barnes et al ., 2018),自然语言推理(Conneau et al ., 2018 b),文档分类(Schwenk &李,2018),和问答(Artetxe et al ., 2019;刘易斯等人,2019年)。评价一个任务是有问题的过去的工作指出潜在问题与标准数据集:MLDoc (Schwenk &李,2018)可以解决通过匹配关键字(Artetxe et al ., 2019),尽管MultiNLI, XNLI的数据集(Conneau et al ., 2018 b),包含表面的线索,可以利用(Gururangan et al ., 2018)。因此,对多个任务的评估是比较跨语言模型的必要条件。涉及多个任务的基准测试,如GLUE (Wang et al., 2019b)和SuperGLUE (Wang et al., 2019a),可以说促进了单语迁移学习的研究。在跨语言设置中,这样的基准不仅需要覆盖不同的任务集,还需要覆盖不同的语言。XTREME旨在填补这一空白。

XTREME XTREME的目标是提供一个可访问的基准,用于评估跨语言迁移学习在一组不同的和有代表性的任务和语言上的学习,我们根据以下原则选择组成基准的任务和语言:
任务难度 任务应该具有足够的挑战性,以至于跨语言的表现不如人类的表现。
任务多样性 任务应该要求多语言模型在不同的层次上传递它们的意义表示,例如单词、短语和句子。例如,分类任务需要句子级的意义转移,而序列标记任务,如词性标记(POS)或命名实体识别(NER)测试模型在单词级的转移能力。
训练效率 任务应该可以在单一GPU上训练不到一天。这是为了使基准可访问,特别是对在资源约束下使用低资源语言的从业者。
多语言 我们更喜欢涵盖尽可能多的语言和语言家族的任务。
足够的单语数据 语言应该有足够的单语数据来学习有用的预训练表示。
可访问性 每个任务均应在许可的许可下可用,该许可允许出于研究目的使用和重新分发数据。

再往下,我觉得没有记录的必要了,文章很清晰。

相关文章

网友评论

      本文标题:【XTREME】

      本文链接:https://www.haomeiwen.com/subject/rxojwhtx.html