美文网首页
Named Entity Recognition & Trans

Named Entity Recognition & Trans

作者: 小小程序员一枚 | 来源:发表于2020-10-02 12:33 被阅读0次

    读论文分享

    今天囫囵吞枣地看完了两篇文章:

    1.Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism
    2.Dynamic Transfer Learning for Named Entity Recognition

    这两篇文章都是基于迁移学习的命名实体识别

    迁移学习:对比源领域和目标领域之间的相似性,并且对这些相似性通过一些迁移学习方法进行利用

    第一篇文章是基于对抗迁移学习的中文命名实体识别,命名实体识别的主要任务分为两个步骤:1.确定实体的边界 2.给分割好的实体标注类型。中文的命名实体识别不同于英文,它的第一步分词就很重要,直接决定了后面标注的结果。第一篇文章利用NER和CWS之间的相似性和不同点建立了一个新的模型,既捕捉了他们之间相似的边界信息,又避免各自独有的特征被学习到共享特征向量中去。论文还利用了self-attention层去捕捉句子之间的长距离依赖,以实现更好的标注效果。

    模型

    他的主要模型如下:


    1.Embedding Layer

    这一层主要就是利用预训练的词嵌入(eg:word2vec,Glove)层将NER和CWS中的词转化为词向量。

    2.Shared-Private Feature Extractor

    如上图所示,作者在第二层采用的主要模型就是BiLSTM,即双向LSTM,它通过引入门控机制和记忆cell来解决在RNN上的梯度爆炸和消失的问题,与之前的迁移学习不同,基于对抗的迁移学习将特征的抽取分为两类,一类是共享的边界特征的抽取,另一类是NER和CWS各自的特殊的特征的抽取。

    3.Self-Attention

    self-attention机制能够捕捉句子的内部结构信息,作者采用了multi-head attention机制,它与self-attention机制类似,主要是每次采用不同的权重矩阵与Q,K,V相乘,最后将结果相加。

    4 Task-Specific CRF

    CRF层主要是转移矩阵的训练

    5 Task Discriminator

    作者将对抗训练融入到迁移学习中去,就是为了不让CWS的特殊特征渗透到共享特征的表示中去,任务鉴别器的目标就是最后从共享的BiLSTM层训练得到的特征的向量表示无法被区分是来自NER还是CWS。还有个最小最大化函数,个人理解:最大程度的干扰task discriminator,让它尽可能地学习正确地鉴别句子的来源,然后最小化识别的错误(???)

    6 Training

    常规做法,定义损失函数,然后Adam算法更新参数

    实验

    1.数据集

    2.实验结果

    original WeiBo NER
    updated Weibo NER
    Signal NER
    实验结果分析

    作者提出的方法在原始的微博数据集上和Sighan数据集上的表现都有很大的提升,观察图2和图4发现F1值分别提升了4.67%和1.63%,但从图3上来看,总体的F1值略有下降,分析原因可能是:1.微博的数据集太小了,只有1.3k个句子,模型的没有充分训练 2.微博的数据是社交媒体数据,句子表达都很不规范

    3.消融实验

    image

    5.case study

    image

    未完。。。。。。

    相关文章

      网友评论

          本文标题:Named Entity Recognition & Trans

          本文链接:https://www.haomeiwen.com/subject/januuktx.html