读论文分享
今天囫囵吞枣地看完了两篇文章:
1.Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism
2.Dynamic Transfer Learning for Named Entity Recognition
这两篇文章都是基于迁移学习的命名实体识别
迁移学习:对比源领域和目标领域之间的相似性,并且对这些相似性通过一些迁移学习方法进行利用
第一篇文章是基于对抗迁移学习的中文命名实体识别,命名实体识别的主要任务分为两个步骤:1.确定实体的边界 2.给分割好的实体标注类型。中文的命名实体识别不同于英文,它的第一步分词就很重要,直接决定了后面标注的结果。第一篇文章利用NER和CWS之间的相似性和不同点建立了一个新的模型,既捕捉了他们之间相似的边界信息,又避免各自独有的特征被学习到共享特征向量中去。论文还利用了self-attention层去捕捉句子之间的长距离依赖,以实现更好的标注效果。
模型
他的主要模型如下:
1.Embedding Layer
这一层主要就是利用预训练的词嵌入(eg:word2vec,Glove)层将NER和CWS中的词转化为词向量。
2.Shared-Private Feature Extractor
如上图所示,作者在第二层采用的主要模型就是BiLSTM,即双向LSTM,它通过引入门控机制和记忆cell来解决在RNN上的梯度爆炸和消失的问题,与之前的迁移学习不同,基于对抗的迁移学习将特征的抽取分为两类,一类是共享的边界特征的抽取,另一类是NER和CWS各自的特殊的特征的抽取。
3.Self-Attention
self-attention机制能够捕捉句子的内部结构信息,作者采用了multi-head attention机制,它与self-attention机制类似,主要是每次采用不同的权重矩阵与Q,K,V相乘,最后将结果相加。
4 Task-Specific CRF
CRF层主要是转移矩阵的训练
5 Task Discriminator
作者将对抗训练融入到迁移学习中去,就是为了不让CWS的特殊特征渗透到共享特征的表示中去,任务鉴别器的目标就是最后从共享的BiLSTM层训练得到的特征的向量表示无法被区分是来自NER还是CWS。还有个最小最大化函数,个人理解:最大程度的干扰task discriminator,让它尽可能地学习正确地鉴别句子的来源,然后最小化识别的错误(???)
6 Training
常规做法,定义损失函数,然后Adam算法更新参数
实验
1.数据集
2.实验结果
original WeiBo NERupdated Weibo NER
Signal NER
实验结果分析
作者提出的方法在原始的微博数据集上和Sighan数据集上的表现都有很大的提升,观察图2和图4发现F1值分别提升了4.67%和1.63%,但从图3上来看,总体的F1值略有下降,分析原因可能是:1.微博的数据集太小了,只有1.3k个句子,模型的没有充分训练 2.微博的数据是社交媒体数据,句子表达都很不规范
3.消融实验
image5.case study
image未完。。。。。。
网友评论