KE_PM

作者: 992134d3a7cd | 来源:发表于2022-02-21 02:51 被阅读0次

KE_PM

[TOC]

动机

现有的 PTM 有以下缺点：

以预训练的语言模型为例，
它们很好地学习频繁词的语义，但在受长尾数据分布限制的稀有词上表现不佳。同样，这种数据分布也限制了 CV PTM 在具有长尾类不平衡的实际应用中的实用性。
PTM 不擅长推理。例如，预训练语言模型是统计模型，根据共现信号学习隐含关系，导致缺乏逻辑推理。尽管预训练的语言模型可以捕获丰富的语言学 [11]、语义 [12]、句法 [13] 甚至世界知识 [14]，
但 Cao 等人。 [15]表明，预训练语言模型的下降事实知识提取性能主要归功于有偏见提示 biased prompts。 [16] 中的实验还表明，预训练语言模型在需要推理的任务中表现不佳。同样，CV 的 PTM 无法提取检测到的对象之间的语义关系。

3.由于 PTM 在某些任务中的表现优于人类，引发了伦理和社会问题。正如我们所观察到的，预训练的语言模型缺乏常识知识并生成不合逻辑的句子 [17]。因此，PTM 的可解释性和问责制对于普遍应用它们变得至关重要。

神经网络和符号知识的结合揭示了这些问题的可能解决方案。
一方面，知识图谱等符号知识对稀有词的覆盖率很高，解决了缺乏文本监督的问题[18]，[19]。除此之外，它们还为模型提供全面的关系信息 [20]、[21] 和/或显式规则 [22]，以增强预训练语言模型的推理能力。
另一方面，符号知识提高了下游任务中知识使用的可解释性[23]。
此外，对于特定的下游应用程序 [24]、[25]，无需从头开始训练即可将知识 1 摄取到预训练的检查点中是切实可行的。因此，有希望将知识与预训练的语言模型相结合，以实现更通用的人工智能。

本次调查的贡献可总结如下：
• 全面总结。我们对 NLP 和 CV 中的预训练模型以及知识表示学习进行了全面总结。

• 新分类法。我们提出了 KEPTM 的分类法，从知识的粒度、知识注入的方法和符号知识参数化的程度对现有的 KEPTM 进行分类。

• 性能分析。我们从应用场景的范围、知识注入的有效性、知识的管理和可解释性的角度分析了不同类别 PTM 的优缺点。

• 未来发展方向。我们讨论了现有 KEPTM 的挑战，并提出了一些可能的未来研究方向。

调查的其余部分安排如下。
第 2 节概述了预训练模型和知识表示学习的进展。
第 3 节介绍了分类原则和相应的综合分类法。
在第 3 节分类之后，第 4 节介绍了各种 KEPTM 的工作原理并分析了其优缺点，并从不同维度比较了现有的 KEPTM。
第 5 节讨论了当前的挑战并提出了未来的方向。

背景

预训练模型

预训练模型可以从大量原始感官数据中提取高级特征以获得有效的表示，并在微调预训练模型后将其应用于下游任务。
预训练模型的有效性很大程度上取决于模型编码器的表示学习。
表示学习是指学习数据的表示，以便在构建分类器或其他预测器时更容易提取有用的信息[26]。表示学习社区中有两种主流范式：概率图形模型和神经网络。概率图模型通过对样本数据中潜在变量的后验分布进行建模来学习特征表示，包括有向图模型和无向图模型。
神经网络模型大多使用由编码器和解码器组成的自动编码器。编码器负责特征提取，而解码器通过应用正则化重建目标来重建输入。

与概率图形模型相比，基于神经网络的模型具有以下优点。
首先，神经网络可以用分布式向量而不是稀疏向量来表达更多可能的特征。
其次，考虑到现有数据主要是多个潜在因素相互作用的结果，分布式向量可以通过设计特定的网络结构来表示不同的影响因素。
最后，深度神经网络的底层神经层将从数据中学习到的具体特征转换为上层的抽象特征，并随着输入数据的局部变化保持稳定，增强了表示在许多下游任务中泛化的鲁棒性。

遵循基于自动编码器的神经模型，预训练模型设计特定的神经网络来编码输入数据，同时使用预训练任务来解码学习表示。经过微调后，预训练模型可以轻松适应各种 NLP 和 CV，甚至是跨模态任务。
我们主要将模型分为预训练CV 和预训练语言模型。

预训练 CV 模型

预训练的 CV 模型已成为图像分类、对象检测和语义分割的强大策略。
作为第一个探索用于通用目标检测的卷积神经网络 (CNN)，Girshick 等人。 [27] 通过将 AlexNet [28] 与区域提议选择性搜索 [29] 相结合，实现了高目标检测质量。受其在测试期间效率低下的激励，He 等人。 [30] 将传统的空间金字塔池引入到 CNN 架构中。 Fast RCNN [31] 同时学习 softmax 分类器和特定类别的边界框回归，以进一步提高检测速度和质量，而 Faster RCNN [7] 减轻了对外部区域提议的依赖。基于 Faster RCNN，Mask RCNN [32] 在对象检测和实例分割方面取得了有希望的结果，而 Faster RCNN 的开销很小。除了基于区域的方法之外，研究人员还开发了统一的检测策略。作为 ILSVRC2013 [33] 定位和检测竞赛的获胜者，OverFeat [34] 通过网络中的全卷积层的单次前向传递执行目标检测，因此具有显着的速度优势。 YOLO 系列将对象检测转换为回归问题，并在标准检测任务上达到最先进的结果。与 YOLO 相比，SSD [35] 在保持高检测质量的同时实现了更快的检测速度。 VGG [8] 作为一种流行的架构适用于分类和图像识别任务。基于对象检测结果，SDS [36]使用与类别无关的自下而上对象提议进行语义分割。龙等人。 [36]提出了端到端训练的卷积网络，而不依赖于区域提议。有关预训练 CV 模型的更多详细信息，我们请读者参考 [37]、[38]。

Pre-trained Language Models

Token-based Pre-trained Models

源自 Bengio 在 2003 年提出的 NNLM [51]，单词的分布式表示是在训练过程中作为副产品生成的。根据具有相似上下文的单词具有相似语义的假设，Mikolov 等人。 [39],
[40] 提出了两种浅层架构：Continuous Bagof-Words (CBOW) 和 Skip-Gram (SG) 来捕获单词之间潜在的句法和语义相似性。此外，GloVe [41] 计算来自大型语料库的词词共现统计数据作为监督信号，FastText [42] 使用文本分类数据训练模型。随着上述所有基于标记的预训练模型的出现，词嵌入已普遍用作 NLP 任务中的文本表示。尽管这些模型简单有效，但它们仅适用于获得固定表示而不是捕获多义词。这也是我们将这种模型称为静态预训练模型的原因。

Context-based Pre-trained Models

为了解决多义问题，预训练模型需要区分单词的语义并在不同的上下文中动态生成单词嵌入。给定一个文本 x 1 ,x 2 ,··· ,x T 其中每个标记 x t 是一个词或子词，x t 的上下文表示取决于整个文本。

以 LSTM [52] 作为神经编码器，ELMo [43] 模型从双向语言模型中提取上下文相关的表示，这已证明可以为一系列 NLP 任务带来很大的改进。然而，ELMo 通常用作特征提取器来为下游任务的主模型生成初始嵌入，这意味着主模型的其余参数必须从头开始训练。

同时，ULMFiT [53] 的提议为模型提供了有价值的多阶段迁移和微调技能。此外，Transformer [54] 在机器翻译方面取得了惊人的成功，并被证明在处理远程文本依赖方面比 LSTM 更有效。在此背景下，OpenAI 提出了 GPT [4]，它采用修改后的 Transformer 解码器作为语言模型来学习可转移到广泛下游任务的通用表示，在 12 个 NLP 任务中的 9 个中优于特定于任务的架构。 GPT-2 和 GPT-3 [5]、[55] 主要遵循架构并在更大、更多样化的数据集上进行训练，以从不同的领域学习。然而，受单向编码器的限制，GPT 系列只能关注其左侧上下文，从而导致学习句子级语义的次优。为了克服这一缺陷，BERT [6] 采用了掩码语言建模 (MLM) 目标，其中序列的一些标记被随机屏蔽，目标是在考虑损坏句子的情况下预测这些标记。受 Skip-Thoughts [56] 的启发，BERT 还采用下一句预测（NSP）任务来学习句子之间的语义联系，在 11 个 NLP 任务上获得了新的 start-ofart 结果，甚至成为后续模型的基础。在 BERT 的基础上，RoBERTa [45] 设计了一些改进的训练方案，包括在更多数据上使用更大的批次进行更长时间的训练、修改目标、对长序列进行训练以及动态更改掩码模式，从而显着提高 BERT 的性能。为了克服 BERT 的预训练和微调之间的差异，XLNet [44] 提出了一种基于置换语言建模的新自回归方法，以在不引入任何新符号的情况下捕获上下文信息。

与上述所有这些针对自然理解或生成任务的预训练模型不同，T5 [46] 采用编码器-解码器框架通过将数据转换为文本到文本格式来统一自然理解和生成。有关预训练语言模型的更多详细信息，我们请读者参考 [57]、[58]。

Knowledge Representation Learning

知识
知识是对某人或某事的熟悉、认识或理解，例如事实（描述性知识）、技能（程序性知识）或对象。大卫等人。 [59]将知识分为四类，即事实性知识、概念性知识、程序性知识和元认知知识。事实性知识是指描述客观事物的术语和具体细节和要素的知识。概念性知识是一个更大结构内的基本要素之间的相互关系，使它们能够共同发挥作用，例如原理、概括和理论。程序性知识是指指导行动的知识，包括探究方法和使用技能、算法、技术和方法的标准。元认知知识强调自我能动性，是一般的认知知识，也是意识的知识。

知识表示方法

传统的知识表示方法包括一阶谓词逻辑、框架表示[61]、脚本表示[62]、语义网络表示[63]和本体表示。一阶谓词逻辑的基本语法要素是表示对象、关系和功能的符号，其中对象指代事物的个体或范畴，关系指事物之间的映射，而功能则需要每个对象中的对象。域具有映射值作为谓词的特殊形式。这种方法虽然可以保证知识表示的一致性和推理结果的正确性，但难以表示程序性知识。

语义网络是由有向图表示的概念网络，其中节点表示概念，边表示概念之间的语义关系，也可以转化为三元组。它可以以统一和直接的方式描述知识，有利于计算机存储和检索。但是，它只能代表概念性知识，而不能代表过程知识等动态知识。

框架表示通过框架的层次结构组织知识，其中每个实体由一个包含多个用于存储属性和相应值的槽的框架表示。它通过继承一个人的属性来避免框架的重复定义。由于现实世界的多样性和复杂性，许多实际情况和框架差异很大，在框架设计过程中引入了错误或冲突，导致除了无法表示程序性知识外，缺乏通用性。

脚本化表示通过一系列原子动作来表示事物的基本行为，描述事物以确定的时间或因果顺序发生，并用于动态知识。虽然它可以在一定程度上代表程序性知识，但不适用于概念性或事实性知识。

最初，本体论一词来自哲学，用于描述世界上存在者的存在。为了获得具有推理能力的模型，研究人员采用术语本体来描述程序中可以计算表示的世界。 CYC [64] 是一个按照本体规范构建的知识库，旨在组织人类常识知识。由于本体可以表示一致认可的静态领域知识，因此它也用于信息检索和 NLP。 WordNet [65] 是基于单词本体创建的。除了静态知识建模之外，还设计了特定于任务的本体，以添加基于静态知识的推理能力。

为了促进语义理解，Tim 等人。 [66] 在 2001 年提出语义 Web 概念，以构建一个大型分布式数据库，通过语义而不是字符串来链接数据。为了使计算机可以理解数据，W3C 提出了资源描述框架（RDF）[67]，它使用语义网络表示以三元组的形式表达语义。这种形式可以很容易地通过图来实现，以应用概率图和图论的图算法来解决问题。此外，Web Ontology Language (OWL) 旨在赋予计算机推理能力，它描述了符合本体表示的事物的类别、属性和实例。

在工程实现中，知识图谱（KG）是以实体为节点，以关系为边的网络表示的知识库。具体来说，KG 通过语义网技术从网络中获取知识和相应的描述，并组织成三元组。由于程序性知识管理难度大，确定性弱，现有的KG大多只包含概念性知识和事实性知识，没有程序性知识。

Knowledge Representation Learning

深度学习委托的知识表示学习（KRL）侧重于知识库中实体和关系的表示学习，有效衡量实体和关系的语义相关性，缓解稀疏问题。更重要的是，在知识表示学习之后，符号知识可以更容易地与基于神经网络的模型集成。

平移距离模型
使用基于距离的评分函数，这种类型的模型将事实的合理性衡量为关系执行平移后两个实体之间的距离。受 [68] 中语言规律的启发，TransE [69] 表示 d 维向量空间中的实体和关系，使得嵌入的实体 h 和 t 可以通过平移向量 r 连接，即当 (h, r, t) 成立。为了解决实体和关系的单个空间不足的问题，TransH [70] 和 TransR [71] 允许实体在涉及不同关系时具有不同的表示。 TransH 引入了关系超平面，假设实体和关系共享相同的语义空间，而 TransR 利用分离的关系空间来考虑实体的不同属性。 TransD [72] 认为，即使具有相同的关系，实体也可以作为不同的类型，并通过考虑实体和关系之间的交互来构建动态映射矩阵。由于实体和关系的异质性和不平衡性，TranSparse [73] 通过在投影矩阵上强制稀疏来简化 TransR。

语义匹配模型
语义匹配模型通过匹配实体的潜在语义和关系与基于相似性的评分函数来衡量事实的合理性。 RESCAL [74] 将每个实体和关系分别与向量和矩阵相关联。事实的得分 (h, r, t) 由双线性函数定义。为了降低计算复杂度，DistMult [75] 通过限制与对角矩阵的关系来简化 RESCAL。将 RESCAL 的表达能力与 DistMult 的效率和简单性相结合，HolE [28] 用循环相关运算组合实体表示，然后将组合向量与关系表示匹配以对三元组进行评分。与上述模型不同，SME [76] 使用神经网络架构在实体和关系之间进行语义匹配。 NTN [77] 将投影实体与关系张量相结合，并在关系线性输出层之后预测分数。

图神经网络模型
上述模型仅通过存储为三元组集合的事实嵌入实体和关系，而基于图神经网络的模型考虑了图的整个结构。图卷积网络 (GCN) 是在 [78] 中首次提出的，经过不断努力 [79]、[80]、[81]、[82]，它已成为创建节点嵌入的有效工具，它聚合了图邻域中的局部信息对于每个节点。作为图卷积网络的扩展，R-GCN [83]被开发用于处理现实知识库的高度多关系数据特征。 SACN [84] 采用端到端网络学习框架，其中编码器利用图节点结构和属性，解码器简化 ConvE [85] 并保持 TransE 的平移特性。 Nathani 等人遵循 SACN 的相同框架。 [86] 提出了一种基于注意力的特征嵌入，它在编码器中捕获实体和关系特征。 Vashishth 等人。 [87]认为在消息传输过程中应综合考虑关系和节点的结合。那里- 5

为此，他们提出了 CompGCN，它利用知识图嵌入技术中的各种实体关系组合操作，并随着关系的数量缩放以共同嵌入节点和关系。

KEPM的分类

3.1 分类原则

符号知识以实体描述、KG 和规则的形式为预训练模型提供丰富的信息，分别提供额外的实体特征、实体间关联并指导 PTM 的推理过程。 PTM 需要不同粒度的知识来解决不同的下游任务。然而，PTM 仅拥有知识是不够的，它是一种有效的知识注入方法。这些方法对知识注入的效率、知识的存储方式以及知识管理的难易程度都有显着影响。除此之外，可解释性和问责制对于将 PTM 扩展到更广泛的应用场景变得至关重要。已经付出了很多努力来通过不同的探测方式来查看 PTM 中编码的知识 [88]。研究人员发现，PLM 的标记表示可以通过探测分类器 [89]、[90] 来捕获句法和语义知识。问答任务中的定量分析表明，PLM 可以编码结构化的常识知识 [91]。克拉克等人。 [92] 探索了自注意力头的功能，并报告说他们在某些句法位置上显着地注意单词。尽管取得了这些成就，但没有研究如何在下游任务中利用知识的可解释性，特别是对于需要大量知识的任务。 PTM 缺乏确定和严格的计算形式，这对于需要显式过程的推理任务尤其重要。因此，我们从知识粒度、知识注入方式、符号知识参数化程度三个维度对现有KEPTMs进行分类，分析其对应用范围、知识注入效率和知识易用性的影响管理和可解释性。

知识增强预训练模型的分类

本节根据上面讨论的维度给出了一个具体的分类。

知识粒度

KEPTM 集成了不同粒度的知识，适用于需要不同细节级别信息的场景。一般来说，情感分析主要依赖于词的特征，因此需要更多关于个体实体的信息。相比之下，文本生成任务依赖于基于常识知识，问答任务依赖规则和KG来推断。根据知识集成的粒度，我们将 KEPTM 分为非结构化知识和结构化知识。前者由实体融合和文本融合的 KEPTM 组成，而后者又进一步分为 sytax-tree fused、KG fused、rule fused KEPTM。

实体融合的 KEPTM
实体作为基本的语义单位，以词、词组和文字的形式存在。现有的 KEPTM 通常将实体视为监督数据，以学习其语义或从中获得额外的关键特征。稀有或歧义实体的信息使 PTM 能够很好地学习其语义，并在命名实体识别 [93]、情感分析 [94]、词义消歧甚至问答任务 [95] 中取得可喜的性能。

文本融合预训练模型
由于预训练以序列为输入，因此无需额外处理即可轻松编码文本。尽管它在表达上很灵活，但它不能提供明确的关系，主要有利于问答。

语法树融合的 KEPTM
句法知识提供了句子的关键成分，它们不仅有利于自然语言推理和理解任务[96]，而且有利于句法解析[97]、语义角色标记任务和共指解决。更重要的是，它可以通过各种方法加以利用。例如，它可以通过选择语法树的不同组成部分来用于监督数据。此外，语法树的结构也可以通过图神经网络（GNN）[98]进行编码。

KG 融合 KEPTM
随着信息抽取技术的进步，大量的通用知识图谱和特定领域知识图谱应运而生。知识图谱提供了一种结构化的方式来以实体和它们之间的关系的形式表示丰富的信息。在被 PTM 采用后，它们已成为各种任务的核心，包括一般的自然语言理解和生成任务，以及图像分类和视觉问答。与语法树类似，它们通过适当的 KRL [18]、[19] 充当语义嵌入，或通过查询 [21]、[99] 指导推理过程。

规则融合的 KEPTM
规则作为非正式约束或严格的逻辑表达式存在。它的主要好处是其由强有力的数学形式主义和明确的推理过程带来的可解释性和问责制。这些规则不仅可以用作分配权重的监督信号[100]，还可以用作做出决策的独立推理系统[23]。

知识注入方法法

知识注入的方法对于 PTM 与知识整合的有效性和效率，以及知识的管理和存储都起着重要的作用。实际上，它决定了可以整合哪些知识以及知识的形式。为了深入了解知识是如何注入的，我们将模型分为特征融合、嵌入组合、知识监督、数据结构统一、基于检索和规则引导的 KEPTM。

特征融合的 KEPTM
这种类型的模型从特定的知识库中获得诸如情感极性、超感和实体跨度等特征。特征 6 融合的 KEPTM 通常通过使用可训练矩阵投影到嵌入中来考虑它，并通过预训练任务 [94]、[101]、[102] 来学习其含义。

嵌入组合的 KEPTM
为了填补符号知识和神经网络之间的空白，嵌入组合的 KEPTM 将符号知识转换为嵌入，提前使用表示学习算法，这会极大地影响模型的性能。然后文本和实体中的标记将通过注意力机制或其他加权操作[18]，[19]对齐以结合它们的相应嵌入。但是，由于对不同形式的知识有不同的表示学习算法，会存在异构的语义空间。为了解决这个问题，一些 KEPTM 生成节点的初始嵌入及其上下文 [20]、[103]。

数据结构统一的 KEPTM
由于结构不兼容，一些工作对 PTM 的知识注入和原始训练数据采用不同的表示学习算法。但是，它会导致语义空间异构，增加它们融合的难度。为了平滑地集成它们，数据结构统一的 KEPTM 将 KG 的关系三元组转换为序列，因此使用相同的编码器来学习嵌入 [24]、[104]、[105]。然而，统一数据结构的构建依赖于启发式实现，KG 的结构信息被丢弃。

知识监督的 KEPTM
为了避免额外的培训成本和工程设计，知识监督的 KEPTM 选择满足特定关系和/或关系三元组的实体作为训练数据 [94]、[103]。正如我们上面所讨论的，预训练的语言模型是一种统计模型，通过共现信号学习实体之间的关系。 KEPTMs 通过在不牺牲效率的情况下将关系三元组和/或实体与输入序列连接起来克服了这个缺点 [106]、[107]。

基于检索的 KEPTM
基于检索的 KEPTM 可以通过咨询外部知识来更新感知，而不是注入知识。他们通常通过计算输入文本和知识 [108]、[109]、[110] 之间的相关性从知识源中检索所需信息。优势之一在于主动选择相关信息，避免了无法匹配输入文本的冗余和歧义知识的影响。由于它们不保留模型内的知识，因此它们的应用受到限制，主要应用于问答。

规则引导的 KEPTM
大多数 KEPTM 将知识和语言信息存储在预训练模型的参数中。然而，观察知识在下游任务中是如何被利用的并不直观。解决它的一种直接方法是保持符号知识的原始形式，就像规则引导的 KEPTM 所做的那样。这种类型的模型由感知系统和推理系统组成，前者由 PTM 组成，后者由规则 [22]、[23] 实现。这种模型的一个主要优点是它们使用严格的数学公式保证结果的可靠性，并通过明确的推理过程提供可解释性。

知识参数化程度

PTM 可以以符号或语义嵌入的形式利用知识。为了桥接符号知识和神经网络，前者被投影到一个密集的低维语义空间中，并由分布式向量表示，彻底的知识表示学习[111]。当前的算法主要集中在对 KG 的表示学习上。使用 GNN 的变体来捕获 KG 的结构。然而，这种方法在知识存储和管理方面也带来了挑战。一方面，知识需要一定数量的参数来存储。另一方面，模型在知识不断更新的情况下重复注入知识是不现实的，特别是对于那些通过预训练集成知识的模型。相比之下，一些研究人员保留了符号知识的形式并将其用于学习管道。根据知识参数化程度，我们将模型分为完全参数化、部分参数化和知识形式不变的 KEPTM。

完全参数化的 KEPTM
随着 GNN 的快速发展，各种符号知识，尤其是 KGs，可以被有效地编码。不仅针对实体的语义，此类模型还借助 KRL 的优越方法捕获结构信息以支持推理。通过将知识存储为参数，模型可以具有知识意识并适应广泛的场景。

部分参数化的 KEPTM
由于 GNN 对 KG 的多步关系建模的局限性，部分参数化的融合 KEPTM 只对部分知识进行编码，而其余部分保持不变。例如，一些作品 [21]、[112] 对 KG 的实体进行编码，但以原始形式保持结构信息。实体的表示学习负责与 PTM 的集成，而 KG 的结构信息负责检索关联的实体。考虑到 KG 中的大量关系三元组，这对于获得尽可能多的相关实体来支持决策特别有效。

知识形成不变的 KEPTM
除了出色的性能外，研究人员还认识到需要更好地理解 KEPTM 的基本原理。基于规则的表示提供了符号和 PTM 之间的映射机制。通过将符号推理系统集成到学习管道中，形成不变的 KEPTM 的知识调和了 PTM 的有效感知和符号表示的推理和可解释性的优势 [22]、[23]。

论文中介绍的分类和相应的KEPTM如图1所示。

知识增强预训练模型概述

在本节中，我们将详细介绍我们在文献调查中发现的 KEPTM。我们将专注于知识注入的方法，因此根据这个维度组织我们的演示。这是由于假设知识注入的方法作为核心影响因素，决定了 PTM 可以集成哪些类型的知识以及知识呈现的形式。按照这个想法，我们从应用场景、知识注入效率、知识管理和知识使用中的可解释性的角度介绍了现有的 KEPTM。

为了可视化知识注入方法与知识类型和知识参数化程度之间的关联，我们为每种类型的 KEPTM 绘制了示意图。图表的线条粗细表示数量。

Fearure 融合的 KEPTM

Fearure 融合的 KEPTM 专注于实体级别的知识，并通过注入实体特征和语言表示来注入知识。他们从 KG 中提取实体的任务所需特征，并将它们与预训练序列一起投射到嵌入中，这些特征适用于强调实体语义的任务，例如情感分析和词义消歧。

SenseBERT [113]
将词义信息注入到 BERT 的预训练信号中，增强了词汇理解能力，从而解决了 BERT 无法很好地学习受重尾分布影响的稀有词表示的问题。遵循 BERT 架构，与标准 MLM 一起，SenseBERT 训练了一个语义级语言模型来预测缺失的单词含义。 SenseBERT 将带有掩码单词的序列作为输入，并在将单词信息及其超义投影到嵌入后将其馈送到 Transformer 块中。之后，该模型在词形和词义任务中进行了预训练。在不影响通用语言理解评估 (GLUE) [114] 的性能的情况下，SenseBERT 提高了单词级别的语义意识，大大优于普通 BERT 在 Supersense Disambiguation 任务中的表现，并在 Word in Context 任务中取得了最先进的结果 [115]。

尽管 BERT 已被证明在简单的情感分类中是成功的，但将其直接应用于细粒度的情感分析显示出不太显着的改进 [116]。因此，为了更好地解决上述问题，SemtiLARE [94] 被提出通过标签感知 MLM 目标为 BERT 注入情感极性及其词性。以 RoBERTa 为骨干模型，SemtiLARE 首先获取词性标签，并通过上下文感知注意机制从 SentiWordNet 计算单词情感极性。然后利用两个预训练任务来捕捉句子级语言表示和单词级语言知识之间的关系。 SentiLARE 刷新了语言表示模型在句子级和方面级情感分析任务上的最新性能，从而促进了情感理解。

受限于分词方法，预训练语言模型的词汇表中的token通常不是一个语义单元，而是它的碎片。因此，它的跨度特征对语义学习有至关重要的影响。 ERNIE 1.0 [101] 采用实体和短语掩蔽策略来判断语义单元的跨度，并通过上下文学习它们的嵌入。其改进版本 ERNIE 2.0 [102] 引入了不同的预测或分类预训练任务，以同时捕获词汇、句法和语义信息。值得注意的是，ERNIE 2.0 采用持续的预训练框架来实现增量学习，这表明多任务学习技术可能是将多重知识集成到 PTM 中的解决方案。

当 PTM 学习不同的知识时，灾难性遗忘是一种普遍现象。为此，优先考虑多任务学习技术，将多重知识整合到预训练模型中。 PLM 可以从正则化效果中受益，以减轻对特定任务的过度拟合，从而使学习到的表示在任务之间具有通用性。

Embedding Combined KEPTMs

尽管特征融合的 KEPTM 可以学习实体的丰富语义，但仅使用实体进行推理具有挑战性。为了捕获各种知识，嵌入组合的 KEPTM 预先通过 KRL 对其进行编码，并通过注意力机制的变体注入相应的嵌入。它们利用更广泛的知识，例如实体、语法树和 KG，并以参数的形式保存知识。在装备知识之后，嵌入组合的 KEPTM 被应用于一般的自然语言理解、问答和图像分类任务。

跨度掩蔽策略流行用于注入实体的边界特征。但是，它只能为每个对齐的令牌嵌入注入一个实体，并导致预训练和微调之间的不匹配。为了避免这些问题并进一步利用跨度内的语义，Li 等人。 [93] 提出了一种多源词对齐注意力（MWA），将显式词信息与预训练的字符嵌入相结合。具体来说，他们使用分词工具将输入序列划分为不重叠的跨度。然后根据混合池策略[117]计算跨度对齐的注意力矩阵。最后，增强的字符表示是由 word-aligned attention 产生的。与之前的模型不同，ZEN 使用外部编码器学习实体表示，而不是重新分配实体的注意力分数以强调实体信息。为了学习更大的粒度文本，ZEN 在预训练期间通过参加 n-gram 表示来考虑不同的字符组合。给定一个汉字序列，模型提取 n-gram 并用 n-gram 匹配矩阵记录它们的位置。然后所有的 n-gram 都由 Transformer 表示并与相关字符组合。与采用掩蔽策略注入实体信息的模型相比，ZEN 和 MWA 可以合并嵌套实体，从而显着提高实体集成的通用性，同时提供很少的训练成本。与上述模型不同，LUKE [106] 使用额外的词汇表来记录实体的嵌入。它将单词和实体视为独立的标记，并使用 Transformer 计算所有标记的表示。具体来说，它使用了大量从维基百科获得的实体注释语料库。考虑到巨大的成本和计算效率，作者计算实体嵌入，将它们分解为两个小矩阵。此外，作者引入了一种实体感知的自我注意机制，该机制在计算注意分数时考虑了标记的类型。由于实体被视为令牌，LUKE 直接对实体之间的关系进行建模，并在知识驱动的 NLP 任务中实现了强大的经验性能。

Boyond 实体、语法树也可用于增强预训练的语言模型。句法偏差有助于涉及结构化输出空间的各种自然语言理解任务——包括语义角色标记和共指解析等任务。 SyntaxBERT [96] 通过反映输入的不同句法关系的稀疏掩码矩阵对句法知识进行建模，从而通过句法感知自注意机制将句法知识有效地整合到预训练的 Transformer 中。与启发式实现不同，Sachan 等人。 [98]通过图神经网络对输入句子的依赖结构进行编码。由于 BERT 将子词作为输入单元而不是语言标记，因此该模型通过定义从标记的第一个子词到同一标记的剩余子词的新边，在原始依赖树中引入了额外的边。

作为最常见的知识，KGs 提供了全面而丰富的实体和关系信息，并提出了不同的表示学习算法来实现其嵌入。 ERNIE [18] 使用知识表示学习算法（例如 TransE）对实体和关系进行编码，并通过自注意力机制基于对齐方式集成实体表示和令牌嵌入。同样，KnowBERT [19] 也提前学习了 KG 的表示。它没有使用现有的对齐数据，而是引入了一个辅助实体链接器来获取更多的 KG 实体。在将 KG 的关系三元组集成到 BERT 中后，这两个模型都展示了在关系提取、实体类型等知识驱动任务中回忆事实的能力有所提高。然而，他们在 KRL 过程中将三元组视为一个独立的训练单元，忽略了实体的信息邻居。 BRET-MK [105] 通过利用节点的上下文信息从 KG 中捕获更丰富的三元组语义。从KG中提取实体的子图并转换成一个序列，如图2所示。考虑到实体和关系的相互影响，关系也被视为图节点。然后将节点序列送入Transformer，进一步对实体的上下文信息进行编码之后，同样的知识

以往，并非所有知识都在 KEPTM 中发挥积极作用。当 KEPTM 独立于文本上下文对子图进行编码时，KG 中的冗余和模棱两可的知识将被注入。为了达到目的，CokeBERT [118] 根据文本上下文动态选择上下文知识并嵌入知识上下文。

除了 NLP，KG 还为图像分类提供对象的特征和它们之间的关系。考虑到视觉概念空间的庞大、复杂和动态，为每个概念构建大型数据集是不可扩展的。将知识与基于所学知识的推理相结合成为可能的答案。马里诺等人。 [25] 引入图搜索神经网络将大型知识图合并到视觉分类管道中，其中特征向量由 VGG-16 [8] 和 Faster R-CNN [7] 确定。考虑到 KG 的大量节点，它根据我们的输入从一些初始节点开始，只选择对最终输出有用的节点作为训练数据。该图通过传播已知节点的属性和关系成功地对属于长尾分布的类别进行分类。王等人。 [119] 进一步推进了对图像分类任务的少量样本学习的研究。他们提出了一种通过使用 GCN 对描述对象类别的 KG 进行编码来实现零样本对象识别的方法，该方法将从熟悉的类中获得的知识转移到描述不熟悉的类中。具体来说，GCN 将输入作为用 GLoVE [41] 编码的类别的语义嵌入，并根据 VGGM [120] 提供的特征预测视觉分类器。然后学习到的视觉分类器识别出它以前从未见过的类别。在外部知识的帮助下，它将识别算法推广到现实的开放世界。

总之，大多数实体组合的 KEPTM 必须经历两个阶段来整合知识：知识表示学习和对齐。但是，标记和实体的对齐方式存在一些错误。因此，赋予 KEPTM 识别和纠正对齐过程中的错误至关重要。例如，要求 ERNIE 根据错误的对齐方式预测正确的实体 10

特意介绍的。值得注意的是，传统的知识表示学习方法独立处理三元组，因此无法涵盖三元组周围的局部邻域中固有的复杂信息。与之相比，GNN 更适合对结构知识进行编码。本节我们介绍的知识注入方法适用于知识的大部分粒度。此外，嵌入组合的 KEPTM 是知识感知模型，通过将知识作为参数存储在模型中，适用于不同的应用场景。它的缺点是需要额外的计算开销来学习知识的表示和整合异构知识。此外，这种知识注入方法难以确保模型获得特定知识，并阻止我们从模型中显式更新或删除知识。一旦刷新了关键信息，就需要重新训练嵌入组合的 KEPTM 以保持知识的正确性，从而导致知识管理效率低下。适配器模块可能是减轻知识更新负担的有前途的解决方案。它可以以少量可训练参数为代价保存每个适配器中的各种知识，并且可以添加新知识而无需重新访问以前的知识。原始 PTM 的参数保持固定，产生高度的参数共享。

数据结构统一的 KEPTM

为了适应文本和 KG 的不同结构，数据结构统一的 KEPTM 将序列和知识转换为统一的结构，并使用相同的编码器对嵌入进行编码，以避免异构向量空间。这类模型主要通过 KG 增强 PTM，并通过学习相应的参数来获取知识。

K-BERT [24] 通过构建知识丰富的句子树将序列与相关三元组连接起来，实现知识注入。具体来说，选择句子中涉及的所有实体mention，在KGs中查询相应的三元组，然后K-BERT将三元组拼接到相应的位置，生成如图3所示的句子树。

在不考虑结构不一致的情况下，KBERT 通过对下游任务的微调来注入实体的关联信息，并在特定领域任务中实现 1-2% 的 F 1 增益。值得一提的是，使用 CN-DBpedia [121] 微调的 K-BERT 在问答和命名实体识别方面的表现优于知网 [122]，而后者在语义相似性任务中得到了进一步的改进，这表明了适合不同场景的KG。虽然 K-BERT 通过统一数据结构注入了三元组和序列，但它把关系三元组视为独立的单元，忽略了它们之间的关联。为此，CoLAKE [104] 构建了一个词-知识图，并通过预训练任务整合了上下文三元组。单词知识图是通过将由序列转换的全连接图中的提及替换为对齐的实体来构建的。

然而，上述统一的数据结构依赖于启发式实现，一些研究人员提出了一种更通用的方法。关等人。 [123] 和 COMET [124] 通过特定模板将 KG 的关系三元组转换为有意义的序列，并将它们输入 PTM 的编码器。为了用常识知识生成合理的故事，Guan 等人。 [123] 使用基于模板的方法 [125] 将 ConceptNet 和 ATOMIC 中的常识三元组转换为可读的自然语言句子，并通过 LM 目标对这些句子进行后期训练。

值得注意的是，丹尼尔等人。 [126] 发现由预训练语言模型生成的实体表示在归纳链接预测、实体分类和信息检索任务中表现出很强的泛化性。例如，通过从深度预训练的语言模型中转移隐性知识，COMET 学习生成与其主题和关系一致的新对象，并实现常识知识库的自动构建。原因在于学习的表示同时捕获了上下文信息和知识。尽管数据结构统一的 KEPTM 无需额外的工程就可以注入知识，但它们主要关注 KG，为了在统一的数据结构上让步而丢弃了 KG 的结构信息。

监督的目标包括实体和关系三元组。例如，T5+SSM [95] 经过预训练，可以重建 BERT 从维基百科挖掘的命名实体和日期，并在开放域问答基准上获得有竞争力的结果。一些模型，如 WKLM [127]、LIBERT [128] 和 GLM [129]，不使用独立实体，而是选择存在特定实体 11

来自 KG 的关系作为输入数据来指导模型捕获它。为了直接从非结构化文本中获取真实世界的知识，WKLM 设计了弱监督实体替换检测训练目标来强制模型学习实体之间的关系。与 MLM 目标相比，实体替换任务引入了更强的实体级负信号，并保留了原句的语言正确性。 LIEBRT [128] 没有使用单个实体，而是将满足语义相似性约束的实体对作为训练实例，以使 BERT 能够理解词汇-语义关系。不限于特定关系，GLM [129] 驱动预训练模型通过 KG 的指导来捕获相关实体之间原始文本的隐含关系。正如我们上面所讨论的，由预先训练的语言模型生成的实体表示在链接预测中表现出很强的泛化性。为此，KEPLER [103] 将参数与知识和 MLM 目标联合优化，以获得适用于 KG 相关和自然语言理解任务的表示。核心步骤是 KEPLER 使用 RoBERTa 的文本描述而不是 KRL 来初始化知识嵌入。与 KEPLER 类似，KADAPTER [130] 也通过共同学习知识和语言信息来更新参数。不同之处在于，K-ADAPTER 设计了一个适配器来存储每种注入的知识，以保持预训练模型的原始参数固定并隔离不同知识的交互，从而解决灾难性遗忘的问题。

到目前为止，上述模型专注于利用编码器的能力来捕获给定实体的隐式关系。然而，复杂的推理需要直接对实体之间的关系进行建模。实体可以通过维基百科超链接轻松标注，并与KG中的实体对齐，作为知识注入的载体。然而，由于表达形式的多样性，这并不适用于这种关系。为了直接建模实体之间的关系，ERICA [107] 将输入序列与知识图谱的关系连接起来，并通过判别预训练任务对实体之间的关系进行建模。具体来说，采用实体判别任务和关系判别任务。给定头部实体和关系，前者旨在推断尾部实体。后者旨在区分两个关系在语义上是否接近。为了赋予句法解析的能力，LIMIT-BERT [97] 通过语言监督掩码策略学习语言表示。给定句子，它的句法或语义成分由预先训练的语言学模型预测，从而确定掩蔽跨度。为了解决 [mask] 令牌引起的不匹配问题，LIMIT-BERT 采用生成器和判别器作为编码器，如 ELECTRA [131]，并使用掩码令牌预测和替换令牌检测任务来训练模型。 SKEP [132] 为多个情绪分析任务提供统一的情绪表示。借助自动挖掘的情感知识，它将单词、极性和方面级别的情感信息嵌入到情感知识预测目标的表示中。

除了预训练的语言模型，知识图谱还可以被视为 CV 和交叉语言中的监督信号。

模态场。 [100] 定义了一个基于条件随机场 (CRF) [133] 的分类模型，其中所有标签都是根据先验知识分配的。具体来说，它首先定义了一个对层次结构和排除关系进行编码的特定图。然后分类分数由 CRF 基于 CNN 导出的图形和特征计算。总之，它通过利用任意两个标签之间的语义关系来推广图像多类分类框架。尽管在 CV 的经典任务中取得了成就，但预训练的 CV 模型无法仅通过图片来理解对象之间的语义。 ERNIEViL [134] 基于从文本中解析的场景图，实现了视觉和语言之间的详细语义对齐。作为基本因素，场景图为跨模态模型提供了细粒度的语义信息，例如作为掩蔽目标的对象、属性和对象之间的关系。借助这些监督数据，ERNIEViL 在预训练期间通过预测场景图中不同类型的节点来学习联合表示。

知识监督 KEPTM 的主要好处是无需额外的网络架构即可轻松实现。此外，可以通过在预训练或微调期间确定预测目标来灵活地注入知识。例如，SKEP 通过将情感词作为掩蔽目标来实现有希望的各种情感任务。这是因为情感分析主要依赖于情感词和词极性，而不是整个文本。知识注入方法的另一个优点是它可以利用对比学习技术来提高集成的有效性。对比学习最近在 NLP 和 CV 领域取得了最先进的性能，通过区分方差提高了模型的鲁棒性。 KG 可以提供特定的关系，例如反义词和同义词，适合作为比较学习的训练数据。例如，ERICA 通过利用实体和关系区分来更好地捕获文本中的关系事实。

Retrieval-based KEPTMs
基于检索的 KEPTM 不融合知识本身，而是学习检索、选择和编码知识的能力。它侧重于从外部资源中提取所需的知识，以满足单个场景的需求，只需要很少的培训开销。至关重要的是，由于不需要存储大量知识，因此此类模型可以在面对知识的频繁变化时更高效、更方便地进行更新。
例如，参考关键信息来判断而不是存储所有可能相关的知识用于问答和生成任务会更有效。 12

KT-NET [135] 采用注意力机制从 KG 中自适应地选择所需知识，然后融合所选知识以实现机器阅读理解的知识和上下文感知预测。它通过 KRL [75] 对 KG 进行编码，并通过微调学习从 WordNet 和 NELL [136] 中检索潜在相关实体。为了提供事实知识，KGLM [137] 被构建为从本地 KG 中呈现信息，该本地 KG 通过根据来自外部 KG 的上下文选择和复制事实来动态构建。

我们上面介绍的模型使用丢弃结构信息的传统 KRL 方法对 KG 进行编码。为了解决这个问题，GNN 的各种变体被用来更好地建模 KG 的拓扑结构。吕等人。 [20] 设计了一个基于图的模型，从检索到的句子中提取关系三元组并为其构建自定义图。对于自定义图，该模型采用图卷积网络（GCN）将邻居信息编码为节点的表示，并通过图注意力机制聚合证据以预测最终答案。

除了问答，KG 在生成任务上也大放异彩。为了赋予 GPT-2 推理能力，GRF [138] 引入了 ConceptNet 作为外部参考，并根据之前的上下文和知识图谱生成一个结尾。该模型的核心在于动态推理模块，该模块计算三元组和令牌嵌入之间的相关性以获得生成的单词。没有上下文，刘等人。 [139] 提出了仅通过一组概念生成合理句子的 KG-BART。它首先通过考虑概念推理图结构来丰富令牌表示。之后，该模型捕获了由概念扩展图提供的概念内和概念间的内在相关性。该模型通过混合 KG 和文本信息，即使在看不见的概念集中也可以生成高质量的句子。作为结构化知识的补充，纯文本可以提供丰富且高覆盖率的证据。 RAG [110] 通过基于预先训练的 seq2seq 模型检索跨外部文本的相关跨度来生成答案。给定一个查询，RAG 使用输入序列来检索前 K 个相关文本，并在这些潜在文档和输入上生成输出条件。类似地，REALM [109] 通过从大型语料库中检索和处理文档来增强语言模型，但是以更加模块化和可解释的方式。具体来说，它由两个关键组件组成：使用 BERT 框架实现的神经知识检索器，对输入数据进行编码并检索可能有用的文档，以及使用 Transformer 实现的知识增强编码器，用于在文档中注入实体并预测单词用于问答。 TEK [108] 与检索到的百科知识一起学习输入文本的表示，以捕获和保存与稀有实体相关的事实知识。给定查询和上下文，TEK 从多个文档中检索相关句子列表以补充输入，然后对输入进行 Transformer 编码器操作。考虑到预训练过程中看到的输入类型与推理过程中的类型不匹配，研究人员对背景知识增强的输入文本进行了自我监督的预训练。
除了有效利用知识外，基于检索的模型的另一个优势在于知识使用的可解释性。 FaE[112]设计了一个基于神经语言模型的显式接口，将符号可解释的事实信息和语言表示连接起来，实现对知识的检查和解释。由于知识表示和语言表示的解耦，FaE 可以通过仅修改非参数三元组来改变语言模型的输出，而无需任何额外的训练。

尽管应用场景有限，但这种方法允许灵活地根据需要对知识进行编码。更重要的是，它可以在保留符号知识的情况下检查知识的使用情况，从而增加可解释性。例如，FaE 使用外部存储器来保存事实知识并通过整合不同的知识来观察相应的预测。然而，基于检索的 KEPTM 依赖于标记数据来获得通过微调的检索能力。基于提示的模型从 PTM 中检索所需的知识，以通过少量样本处理下游任务。尽管发展迅速，但考虑到缺乏关键知识，很难检索模型所需的所有知识。在快速学习期间利用符号知识可以减轻参数学习的负担。例如，PTR [140] 设计了一个由嵌入和实体组成的提示来实现高效的学习。快速学习与知识相结合，调和了少数样本的学习和检索能力。

规则引导的 KEPTM

如上所述，面向符号知识的表示学习，如 KG，是连接符号知识和预训练模型的解决方案。相比之下，一个突出的研究方向是将 PTM 学习到的表示转化为概念，然后用符号知识进行推理，保持对 PTM 的有效学习和符号知识的可解释性和问责性，就像规则引导的 KEPTM 所做的那样。规则引导的 KEPTM 主要关注基于规则的推理阶段。这些模型中的知识以符号形式表示并以模块化方式集成，而感知则由 PTM 实现。它们的基本特征允许稳健学习和有效推理的原则组合，以及符号系统提供的可解释性。Gangopadhyay 等人。 [22] 提出了深度学习和符号推理的结构化组合，用于解决模糊图像分类。一种半词汇语言，包括规则和字母表，是预先定义好的。然后半词汇标记的字符串被 SimpleNet [141] 识别为字母表的一个元素。最后，通过规则来决定那些模棱两可的标记，这提供了一个基于领域知识的推理框架来解释复杂的场景。然而，上述模型 13

依赖于任务相关领域特定语言的启发式实现。相比之下，Amizadeh 等人。 [23] 为视觉问答提出了一种更通用的数学形式，它从一阶逻辑概率派生。与计算机视觉的传统任务相比，视觉问答需要推理和关于图像主题的特定知识，因此是一个明显更复杂的问题。提示调整 [142] 已被广泛用于分类任务。然而，手动设计语言提示是错误的，而那些自动生成的提示要验证它们的有效性是很耗时的。为此，PTR [140] 应用逻辑规则来构造带有多个子提示的提示以进行权衡。它使用 PTM 确定主题和对象实体类型，并使用逻辑规则聚合子提示以处理许多类分类任务。该模型将问题转化为一阶逻辑公式，并通过函数程序进行推理，以保证正确的推理过程，而图像的检测则使用 Faster-RCNN 实现

[7]。

除了一阶逻辑，一些模型 [21]、[99] 还采用 KGs 来实现推理。他们将查询图像的概念与 KG 中的适当信息联系起来，以构建局部图并推理随后的正确答案。本体将知识组织为逻辑语义表达，从而实现不同场景之间的共享和语义可解释性。

[143] 引入了域本体，并使用 Mask R-CNN [32] 对它提供的对象和关系进行分类，以识别建筑工地的潜在危险。在感知 PTM 之后，提取的信息存储在 Neo4j 中，用于推理和查询。这些方法保留了符号知识的结构，从而实现了从概念层面的语义推理和检索。

这些模型的主要好处是它的可组合性，它涉及表示和推理过程，这引入了 KEPTM 工作原理的可解释性。尽管有一些方法可以探索 PTM 的可解释性，但它们侧重于所学到的知识并依赖于琐碎的探索技巧。相比之下，这种类型的模型通过指示模型如何得出答案来实现对知识使用的检查和解释。

我们在表 1 和表 2 中详细说明了所有引入的 KEPTM。

结论和未来方向

我们从知识的粒度、知识注入的方法、知识参数化的程度三个角度分析比较了现有的KEPTMs，并从第二个维度进行了详细讨论。

大多数 KEPTM 在预训练期间混合知识，而少数在微调期间这样做。然而，与微调相比，预训练期间的集成成本要高得多。此外，使用 PTM 选择一致的预训练范式可以缓解集成困难。例如，通过在生成预训练中屏蔽掉包含某些类型知识的单词，模型

可以更善于记忆和完成这些知识。

特征融合的 KEPTM 利用实体信息而不引入额外的网络和计算开销，实现简单，适用于需要细粒度实体特征的任务。尽管付出了更多努力，但嵌入组合的 KEPTM 可以同时存储实体和关系信息，并泛化知识驱动的任务，如实体分类、关系提取和知识完成。知识监督的 KEPTM 以最少的工作实现知识注入，这是通过设计适当的预训练任务来实现的。基于检索和规则引导的 KEPTM 帮助我们了解预训练模型如何利用知识来完成下游任务，并为更好地使用和进一步改进提供指南。

尽管 KEPTM 已经证明了它们在各种 NLP 和 CV 任务中的强大能力，但由于知识和语言的复杂性以及不同模态的交互，挑战仍然存在。我们建议遵循 KEPTM 的未来方向。

(1) 我们介绍的大多数 KEPTM 都侧重于注入事实或概念知识。还有其他类型的知识值得考虑。例如，程序和元认知知识在开放世界的推理和判断中也发挥着重要作用。因此，一个更有吸引力的方向是探索上述两类知识的利用。

(2) 基于语义网络表示，关系三元组已成为最流行的知识组织形式。然而，正如我们所讨论的，由于原始训练数据和外部知识的表示方法不同而导致的异构注入还需要做更多的工作。除了语义网络表示之外，还有许多知识表示方法以不同的形式呈现知识的属性。因此，为不同的知识搜索更一般的知识表示是有希望的。

(3) 尽管基于检索和规则引导的 KEPTM 使决策过程透明化，但它们是为特定应用而设计的。在不破坏符号知识检查的情况下设计具有通用目的的 KEPTM 将显着提高可解释性。

(4)现有的KEPTMs几乎没有考虑知识的存储和更新。在知识瞬息万变的环境中，将知识存储在更小的空间中并有效地更新它是切实可行的。基于适配器的方法为我们树立了宝贵的榜样。设计一种以即插即用方式利用知识的方法至关重要。

(5) 基于文本和图像的多模态模型通过学习图像-文本表示来捕获图像和相关文本中的丰富语义，并已应用于字幕、视觉问答和视觉推理任务。然而，学习到的图像特征无法捕捉到图像中描述的详细语义。此外，多模态模型的预训练通常依赖于文本数据和图像数据之间存在强相关性的假设。需要探索对多模态模型的组织良好的知识的利用，以打破这种假设的限制并提供丰富的图像语义。

(6) 知识的提取通常采用多步处理。但是，误差会在此过程中传播，从而导致模型性能下降。因此，整合从原始数据中挖掘出来的知识，避免造成信息丢失是一个有价值的方向。

(7) 尽管在蕴涵任务上表现出色，但预训练的语言模型无法执行溯因推理[144]。以前的工作主要集中在形式逻辑过于僵化而无法概括为复杂的自然语言。将形式逻辑与预先训练的语言模型相结合，为未来的研究提供了一条有希望的途径。

(8) 预训练的语言模型难以控制生成内容的属性或主题，尤其是结构良好的内容。以知识的形式表达某些文体的结构并以此指导文本的生成是值得探索的。

KE_PM
[TOC] 动机现有的 PTM 有以下缺点：以预训练的语言模型为例，它们很好地学习频繁词的语义，但在受长尾数据...

KE_PM

动机

背景