美文网首页
论文阅读笔记

论文阅读笔记

作者: 阿阿伏so | 来源:发表于2018-12-17 10:33 被阅读0次

    【论文笔记一】Chinese NER Using Lattice LSTM(Yue Zhang,Jie Yang)

    本文针对中文NER提出了一种网格LSTM结构模型(Lattice LSTM):

    相比character-based方法,能够充分利用单词和词序信息;

    相比word-based方法,独立于分词,不会因为分词错误从而影响识别结果;

    门控循环单元使得模型能够从句子中选择最相关的字符和词,生成更好的 NER 结果。

    模型核心思想:

     通过用Lattice结构的LSTM模型表示句子中的词,将潜在的词信息整合到基于字符的LSTM-CRF中(integrate latent

    word information into characterbased LSTM-CRF by representing lexicon wordsfrom the sentence using a lattice structure LSTM.)

    在目前,英文 NER 的最高水准是使用LSTM-CRF 模型实现的,研究者同样使用了 LSTM-CRF 作为主要网络结构。(原论文提及)

    实验:

    数据集:OntoNotes、MSRA、Weibo(all)、resume

    模型比较:

    结论:

    本文实证研究了一种适用于汉语NER的点阵LSTM-CRF表示法,它在不同领域的性能始终优于基于文字(word-based)和字符(char-based)的LSTM-CRF表示法。Lattice模型完全独立于分词,但由于可以在上下文中自由选择词汇来消除歧义,因此在使用单词信息时更加有效。

    【论文笔记二】Bidirectional LSTM-CRF Models for Sequence Tagging(Huang et al.)

    本篇论文介绍了多种序列标注模型,包括LSTM网络、BI-LSTM网络、CRF网络、LSTM-CRF网络、BI-LSTM-CRF网络,比较将它们用于自然语言处理的性能与准确率。

    重点是本文首次提出将BI-LSTM-CRF模型应用于自然语言处理基准序列标记数据集。该模型可以在POS、分块和NER数据集上产生最先进(或接近于)的精度,并且本文证明BI-LSTMCRF模型的稳健性,相比Collobert等人的研究,该模型对嵌入词的依赖更少,它不需要嵌入词就可以精确的标注。

    实验结果:

    对于POS、chunk ing、NER在各个模型上的F1值的对比,比较模型如下表:

    实验部分:

    三个NLP标记任务(Penn TreeBank (PTB) POS标记、CoNLL 2000分块和CoNLL 2003命名实体标记)上测试了LSTM、BI-LSTM、CRF、LSTM-CRF和BI-LSTM-CRF模型:

    Feature:401K, 76K, and 341K features extracted for POS,chunkingand NER data sets respectively.

    Spelling Features:lower case word features, whether start with a capitalletter, whether has all capital letters.

    … …

    实验对比:

    模型:

    1.长短时记忆模型:输入门、遗忘门、输出门,一个信息进入LSTM网络当中,可以根据规则来判断是否有用,只有符合算法的认证才能留下,不符合的通过遗忘门遗忘。

    2.双向长短时记忆模型:可以访问给定时间过于和未来的输入。

    3.条件随机场模型:CRF可以产生更高的精度。

    4.LSTM-CRF模型:1).结合LSTM和CRF组成LSTM-CRF

                                    2).通过LSTM可以有效利用过去的输入特征

                                    3).通过CRF可以有效利用句子级标签信息

    因此,可以通过LSTM-CRF,有效的使用过去和未来的特征标签来预测当前标签

    5. BI-LSTM-CRF模型:1).结合BI-LSTM-CRF和CRF

                                          2).提升了标记的准确率


    【论文笔记三】End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF(Xuezhe Ma and Eduard Hovy)

    本文提出了:1. 一种新的用于语言序列标记的神经网络结构。

                          2.对两个经典NLP任务的基准数据集进行实证评价。

                          3.实现了真正的端到端系统并且取得不错的实验结果。

    端到端特征:

                       1.no task-specific resources,

                       2.no feature engineering,

                       3.no data pre-processing beyond pre-trained wordembeddings on unlabeled corpora.

    本文神经网络的主要架构如上图所示。每个单词的字符表示由图1中的CNN计算。然后将字符表示向量与嵌入词连接起来,再送入BLSTM网络。虚线箭头表示在BLSTM的输入和输出向量上都应用了Dropout层:

    步骤一:用Character-level CNN获得词表示。

    步骤二:把步骤一的词表示和事先训练好的词向量拼接起来,输入Bi-directional LSTM,得到每个状态的表示。注意,BLSTM的输入和输出都过了Dropout层。

    步骤三:用步骤二的输出输入CRF层,最终预测。

    模型训练

    实验参数:

    数据集:we evaluate our neural network model on two sequence labeling tasks: POS

    tagging and NER

    实验结果:

    结论

    本文提出了一种用于序列标记的神经网络结构。它是一个真正的端到端模型,不依赖于特定任务的资源、特征工程、数据预处理。与之前最先进的系统相比,我们在两个语言序列标记任务上取得了最先进的性能。

    未来的工作有几个潜在的方向:

    首先,我们的模型可以进一步改进,探索多任务学习方法,结合更有用和相关的信息。例如,我们可以用POS和NER标记联合训练一个神经网络模型,以改进我们在网络中学习到的中间表示(intermediate representations)。

    另一个有趣的方向是将我们的模型应用于来自其他领域的数据,如社交媒体(Twitter和微博)。由于我们的模型不需要任何领域或特定于任务的知识,因此可以轻松地将其应用到这些领域。


    【论文笔记四】Named Entity Recognition With Parallel Recurrent Neural Networks(Andrej Zukov-Gregori ˇ cˇ)

    本文贡献:提出了一种新的命名实体识别体系结构模型,并行递归神经网络模型,在相同的输入中使用多个独立的双向LSTM单元,并通过使用模型间正则化项来促进它们之间的多样性。通过在多个较小的LSTMs上的分布计算,我们发现参数总数有所减少。本文架构在CoNLL 2003 NER数据集上实现了最先进的性能。

    实验

             使用双向LSTMs作为基本的循环单元,并使用大小为100的预先训练的单词嵌入。

             连接到词嵌入式字符级嵌入式,类似于 (Lample et al., 2016)但使用了最大池层。

             与并行LSTM不同,我们只使用一个字符嵌入LSTM。

    实验结果:

    结论

    在CoNLL 2003英语数据集上取得了最先进的结果,并引入了一种新的模型,其主要动机是易于分发和减少参数总数。

    展望:研究在不同的分类和序列分类任务中的性能。

               如果模型是跨CPU内核并行化,可以通过运行分析比较速度。

    相关文章

      网友评论

          本文标题:论文阅读笔记

          本文链接:https://www.haomeiwen.com/subject/gditkqtx.html