【读论文】 Learning Representation Ma

作者: Jarkata | 来源:发表于2022-03-05 15:42 被阅读0次

【读论文】 Learning Representation Ma
推荐系统论文阅读（二十七)-GraphSAGE：聚合方式的图表示
GraphSAGE：大型图的归纳式表示学习
图神经网络11-GCN落地的必读论文：GraphSAGE
InfoGAN
GCN在推荐系统中的应用之GraphSage-based
《Learning Spatio-Temporal Repres
论文阅读笔记 RPT: Learning Point Set R
MVGRL：多视图图对比学习
下一个购物篮推荐中的层次表达模型

系统简称：KBQA-Adapter
发表会议：ACL 2019
研究领域：KBQA-Relation detection （KBQA中的关系探测）
作者团队：南京大学NLP组
代码仓库：https://github.com/wudapeng268/KBQA-Adapter

论文简介

该工作主要关注KBQA关系探测中unseen relation的探测，并关注zero-shot relation的探测，使用一个简单的映射方法——representation adapter来将预训练的relation embedding映射到task specific的embedding空间中，训练该adapter时采用了对抗学习loss以及重建loss。
作者重新分配了SimpleQuestion的train,dev和test，使得test和dev中未见关系的比例提升至50%，重新分配后的数据集被叫做SimpleQuestion-Balance (SQB)。
相比baseline HR-BiLSTM (https://github.com/StevenWD/HR-BiLSTM.git)，该方法在SQB的test上提升明显，micro-accuracy从33提升到了77.3。

任务背景

关系探测任务，即给定问句和目标知识库，探测出现在该句中的关系。本文做的是SimpleQuestion，这是一个简单问句集，每个问句只有一条对应的关系。目标知识库是Freebase。如下图所示，需要从where was ... born探测出people.person.place_of_birth。

简单问句集上的关系探测其实是一个较为简单的任务，传统做法就是先做实体链接，再从实体出发找邻接关系，对邻接关系进行排序或者分类就得到了该问句所蕴含的关系，比如HR-BiLSTM就是这种做法。

但是这种方法的问题在于，若某候选关系在训练集中未出现过，则排序模型（分类模型）就很难判断正确。也就是存在zero-shot learning的问题。在SimpleQuestion数据集中，99%的test中的relation在train中出现过，即这不是一个zero-shot问句集。

本文希望通过某种方式，使得模型能够更好地学习zero-shot地关系，从而具有更强的泛化性。

方法

方法其实较为简单，就是给pretrained 的relation embedding加一个转换层（Adapter），使得转换后的embedding能够更好地适应relation detection任务。下图中红框圈出来的就是本文的主要贡献。那么问题在于，如何去训练这个adapter。

这里作者提了3种loss，分别是basic loss, adversarial loss 和 reconstruction loss。

basic adapter

首先，将关系分为两类，分别是seen relations，用 $S$ 表示，unseen relations，用 $U$ 来表示。
第一遍训练，不加adapter，可以得到 $S$ 中的relation fine-tune之后的表示，记作 $\hat{e}$ ，这是伪目标向量。未经fine-tune的relation embedding记作 $e_g$ 。
basic adapter的目标就是把 $e$ 映射到 $\hat{e}$ ，记作 $G(\cdot)$ ，就是一个线性映射层，其loss为:

就是

S

集合中所有关系的loss之和，这里loss可以自定义，比如MSE。

adversial adapter

为了加强adapter的表示，作者又提出了adversial adapter loss，也就是对抗学习的loss。具体就是需要再训练一个discriminator，记作 $D(\cdot)$ 。 $D(\cdot)$ 的目标是判断哪些embedding是伪目标 $\hat{e}$ ，哪些是adapter生成的 $G(e_g)$ ，就是一个而分类器。所以adversial adapter的loss是：

这有两个loss，一个是判别器

D

的，还有一个是adpater

G

的。

reconstruction adapter

上面两种loss，都是在seen relation上训练的，那么unseen的呢？作者这里提出了reconstruction loss。
具体而言，就是在训练一个从 $G(e_g)$ 反向映射回 $\hat{e}$ 的线性映射，记作 $G'(\cdot)$ 。
reconstruction adapter的loss为：

reconstruction loss的优势在于可以同时在seen 和 unseen的relation上训练。

实验

SQB数据集的构成

SQB中 test和dev上的seen 和unseen大概各占一半，而原来的SQ中几乎没有unseen。

Relation Detection结果

micro-average accuracy：对instance做平均的acc。
macro-average accuracy：对relation做平均的acc。

假设实体已知，相比HR-BiLSTM，在unseen数据上提升较为明显。
adapter和adversial adapter以及reconstruction都起了一定的效果。

对KBQA的提升

实体mention用FocusPrune探测，然后用surface form精准匹配freebase中的实体。
从48.5提升到63.7。

对seen relation的偏好

之前HR-BiLSTM在选择关系时会偏好seen 的relation，因为它们得到了更好的训练。
adapter可以降低这种偏好。

其它分析

训练数据量

不管训练数据量有多少，对HR-BiLSTM都呈领先优势。

embedding可视化

总结一下

这份工作是一份比较好的对unseen relation detection的探索，放在19年这些技术都较为常规，个人觉得idea到实验再到分析都挺完备的，是一份不错的工作。
当然，放到22年再看，预训练模型如BERT等的引入，肯定会带来更好的效果提升。同时，对于复杂问题数据集如CWQ和GrailQA上的unseen relation还需要进行探索，这不失为一个好的研究方向。