美文网首页NLP&NLU
《Named Entity Recognition with B

《Named Entity Recognition with B

作者: best___me | 来源:发表于2018-10-31 03:31 被阅读0次

    Collobert等提出一个有效的神经网络模型,只需要little feature engineering而不是在大量的unlabelled text中训练word embeddings。无监督的训练word embeddings(Collober,Mikolov等)

    但是这些模型有缺点:1. 使用简单的前向神经网络,使用固定大小的窗口获取每个词的上下文,会丢弃掉单词之间长距离的关系。2. 只依赖word embeddings,不能开发字符一级的影响,例如前缀和后缀.

    使用LSTM做NER,计算能力的有限并且受到word embedding质量的限制。 CNN可以获取字符级别的特征。 

    本文最大的contribution就是使用双向LSTM和CNNs


    模型:

    1. Sequence-labelling with BiLSTM

    2. 使用CNN提取字符特征


    主要特征: word embeddings + character embeddings

    其他word级别的特征:1. 大写 2. lexicons 词典


    训练:最大化句子级别的对数似然, maximize the sentence level log-likelihood。

    定义了tag-transition矩阵,Ai,j表示从tag i转移到tag j的分数。 A0,i是从tag i开始的分数。这个矩阵是经过学习。

    整个句子的分数是tags的分数和转移矩阵分数的总和:

    相关文章

      网友评论

        本文标题:《Named Entity Recognition with B

        本文链接:https://www.haomeiwen.com/subject/tbhmpxtx.html