读论文分享

今天囫囵吞枣地看完了两篇文章：

1.Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism
2.Dynamic Transfer Learning for Named Entity Recognition

这两篇文章都是基于迁移学习的命名实体识别

迁移学习：对比源领域和目标领域之间的相似性，并且对这些相似性通过一些迁移学习方法进行利用

第一篇文章是基于对抗迁移学习的中文命名实体识别，命名实体识别的主要任务分为两个步骤：1.确定实体的边界 2.给分割好的实体标注类型。中文的命名实体识别不同于英文，它的第一步分词就很重要，直接决定了后面标注的结果。第一篇文章利用NER和CWS之间的相似性和不同点建立了一个新的模型，既捕捉了他们之间相似的边界信息，又避免各自独有的特征被学习到共享特征向量中去。论文还利用了self-attention层去捕捉句子之间的长距离依赖，以实现更好的标注效果。

模型

他的主要模型如下：

1.Embedding Layer

这一层主要就是利用预训练的词嵌入（eg:word2vec,Glove）层将NER和CWS中的词转化为词向量。

2.Shared-Private Feature Extractor

如上图所示，作者在第二层采用的主要模型就是BiLSTM，即双向LSTM，它通过引入门控机制和记忆cell来解决在RNN上的梯度爆炸和消失的问题，与之前的迁移学习不同，基于对抗的迁移学习将特征的抽取分为两类，一类是共享的边界特征的抽取，另一类是NER和CWS各自的特殊的特征的抽取。

3.Self-Attention

self-attention机制能够捕捉句子的内部结构信息，作者采用了multi-head attention机制，它与self-attention机制类似，主要是每次采用不同的权重矩阵与Q,K,V相乘，最后将结果相加。

4 Task-Specific CRF

CRF层主要是转移矩阵的训练

5 Task Discriminator

作者将对抗训练融入到迁移学习中去，就是为了不让CWS的特殊特征渗透到共享特征的表示中去，任务鉴别器的目标就是最后从共享的BiLSTM层训练得到的特征的向量表示无法被区分是来自NER还是CWS。还有个最小最大化函数，个人理解：最大程度的干扰task discriminator，让它尽可能地学习正确地鉴别句子的来源，然后最小化识别的错误（？？？）

6 Training

常规做法，定义损失函数，然后Adam算法更新参数

实验

1.数据集

2.实验结果

original WeiBo NER

updated Weibo NER

Signal NER

实验结果分析

作者提出的方法在原始的微博数据集上和Sighan数据集上的表现都有很大的提升，观察图2和图4发现F1值分别提升了4.67%和1.63%，但从图3上来看，总体的F1值略有下降，分析原因可能是：1.微博的数据集太小了，只有1.3k个句子，模型的没有充分训练 2.微博的数据是社交媒体数据，句子表达都很不规范