美文网首页
【读论文】 Learning Representation Ma

【读论文】 Learning Representation Ma

作者: Jarkata | 来源:发表于2022-03-05 15:42 被阅读0次

    系统简称:KBQA-Adapter
    发表会议:ACL 2019
    研究领域:KBQA-Relation detection (KBQA中的关系探测)
    作者团队:南京大学NLP组
    代码仓库:https://github.com/wudapeng268/KBQA-Adapter

    论文简介

    该工作主要关注KBQA关系探测中unseen relation的探测,并关注zero-shot relation的探测,使用一个简单的映射方法——representation adapter来将预训练的relation embedding映射到task specific的embedding空间中,训练该adapter时采用了对抗学习loss以及重建loss。
    作者重新分配了SimpleQuestion的train,dev和test,使得test和dev中未见关系的比例提升至50%,重新分配后的数据集被叫做SimpleQuestion-Balance (SQB)。
    相比baseline HR-BiLSTM (https://github.com/StevenWD/HR-BiLSTM.git),该方法在SQB的test上提升明显,micro-accuracy从33提升到了77.3。

    任务背景

    关系探测任务,即给定问句和目标知识库,探测出现在该句中的关系。本文做的是SimpleQuestion,这是一个简单问句集,每个问句只有一条对应的关系。目标知识库是Freebase。如下图所示,需要从where was ... born探测出people.person.place_of_birth。


    简单问句集上的关系探测其实是一个较为简单的任务,传统做法就是先做实体链接,再从实体出发找邻接关系,对邻接关系进行排序或者分类就得到了该问句所蕴含的关系,比如HR-BiLSTM就是这种做法。

    但是这种方法的问题在于,若某候选关系在训练集中未出现过,则排序模型(分类模型)就很难判断正确。也就是存在zero-shot learning的问题。在SimpleQuestion数据集中,99%的test中的relation在train中出现过,即这不是一个zero-shot问句集。

    本文希望通过某种方式,使得模型能够更好地学习zero-shot地关系,从而具有更强的泛化性。

    方法

    方法其实较为简单,就是给pretrained 的relation embedding加一个转换层(Adapter),使得转换后的embedding能够更好地适应relation detection任务。下图中红框圈出来的就是本文的主要贡献。那么问题在于,如何去训练这个adapter。

    这里作者提了3种loss,分别是basic loss, adversarial loss 和 reconstruction loss。


    basic adapter

    首先,将关系分为两类,分别是seen relations,用S表示,unseen relations,用U来表示。
    第一遍训练,不加adapter,可以得到S中的relation fine-tune之后的表示,记作\hat{e},这是伪目标向量。未经fine-tune的relation embedding记作e_g
    basic adapter的目标就是把e映射到\hat{e},记作G(\cdot),就是一个线性映射层,其loss为:


    就是S集合中所有关系的loss之和,这里loss可以自定义,比如MSE。

    adversial adapter

    为了加强adapter的表示,作者又提出了adversial adapter loss,也就是对抗学习的loss。具体就是需要再训练一个discriminator,记作D(\cdot)D(\cdot)的目标是判断哪些embedding是伪目标\hat{e},哪些是adapter生成的G(e_g),就是一个而分类器。所以adversial adapter的loss是:


    这有两个loss,一个是判别器D的,还有一个是adpaterG的。

    reconstruction adapter

    上面两种loss,都是在seen relation上训练的,那么unseen的呢?作者这里提出了reconstruction loss。
    具体而言,就是在训练一个从G(e_g)反向映射回\hat{e}的线性映射,记作G'(\cdot)
    reconstruction adapter的loss为:

    reconstruction loss的优势在于可以同时在seen 和 unseen的relation上训练。

    实验

    SQB数据集的构成


    SQB中 test和dev上的seen 和unseen大概各占一半,而原来的SQ中几乎没有unseen。

    Relation Detection结果


    micro-average accuracy:对instance做平均的acc。
    macro-average accuracy:对relation做平均的acc。

    假设实体已知,相比HR-BiLSTM,在unseen数据上提升较为明显。
    adapter和adversial adapter以及reconstruction都起了一定的效果。

    对KBQA的提升


    实体mention用FocusPrune探测,然后用surface form精准匹配freebase中的实体。
    从48.5提升到63.7。

    对seen relation的偏好


    之前HR-BiLSTM在选择关系时会偏好seen 的relation,因为它们得到了更好的训练。
    adapter可以降低这种偏好。

    其它分析

    训练数据量


    不管训练数据量有多少,对HR-BiLSTM都呈领先优势。

    embedding可视化

    总结一下

    这份工作是一份比较好的对unseen relation detection的探索,放在19年这些技术都较为常规,个人觉得idea到实验再到分析都挺完备的,是一份不错的工作。
    当然,放到22年再看,预训练模型如BERT等的引入,肯定会带来更好的效果提升。同时,对于复杂问题数据集如CWQ和GrailQA上的unseen relation还需要进行探索,这不失为一个好的研究方向。

    相关文章

      网友评论

          本文标题:【读论文】 Learning Representation Ma

          本文链接:https://www.haomeiwen.com/subject/bbqbrrtx.html