基于BiLSTM-CNN-CRF的中文分词(一)

作者: 起昵称真麻烦啊 | 来源:发表于2018-03-27 10:07 被阅读790次

在线演示:http://118.25.42.251:7777/fenci?type=mine&text=南京市长莅临指导,大家热烈欢迎。公交车中将禁止吃东西!

一、模型简介

        在序列标注任务(中文分词CWS,词性标注POS,命名实体识别NER等)中,目前主流的深度学习框架是BiLSTM+CRF。其中BiLSTM融合两组学习方向相反(一个按句子顺序,一个按句子逆序)的LSTM层,能够在理论上实现当前词即包含历史信息、又包含未来信息,更有利于对当前词进行标注。BiLSTM在时间上的展开图如下所示。

图1 BiLSTM在时间上展开

        若输入句子由120个词组成,每个词由100维的词向量表示,则模型对应的输入是(120,100),经过BiLSTM后隐层向量变为T1(120,128),其中128为模型中BiLSTM的输出维度。如果不使用CRF层,则可以在模型最后加上一个全连接层用于分类。设分词任务的目标标签为B(Begin)、M(Middle)、E(End)、S(Single),则模型最终输出维度为(120,4)的向量。对于每个词对应的4个浮点值,分别表示对应BMES的概率,最后取概率大的标签作为预测label。通过大量的已标注数据和模型不断迭代优化,这种方式能够学习出不错的分词模型。

        然鹅,虽然依赖于神经网络强大的非线性拟合能力,理论上我们已经能够学习出不错的模型。但是,上述模型只考虑了标签上的上下文信息。对于序列标注任务来说,当前位置的标签L_t与前一个位置L_t-1、后一个位置L_t+1都有潜在的关系。

        例如,“我/S 喜/B 欢/E 你/S”被标注为“我/S 喜/B 欢/B 你/S”,由分词的标注规则可知,B标签后只能接M和E,因此上述模型利用这种标签之间的上下文信息。因此,自然语言处理领域的学者们提出了在模型后接一层CRF层,用于在整个序列上学习最优的标签序列。添加CRF层的模型如下图所示。

图2 BiLSTM+CRF模型图

上述图片出自http://www.aclweb.org/anthology/N16-1030

模型通过下述公式计算最优标注序列,A矩阵是标签转移概率,P矩阵是BiLSTM的预测结果。

图3  CRF最优序列计算

模型训练的时候,对于每个序列 y 优化对数损失函数,调整矩阵A的值。

图4 条件概率计算 图5 CRF训练优化函数

当模型训练完成,模型预测的时候,按如下公式寻找最优路径:

图6 BiLSTM-CRF模型预测

Y_x表示所有可能的序列集合,y*表示集合中使得Score函数最大的序列。

(以上为论文的核心部分,其它细节请参阅原文)

        至此,我们已经大致了解BiLSTM-CRF的原理。对于分词任务,当前词的标签基本上只与前几个和和几个词有关联。BiLSTM在学习较长句子时,可能因为模型容量问题丢弃一些重要信息,因此我在模型中加了一个CNN层,用于提取当前词的局部特征。CNN用于文本分类的模型如下。

图7 CNN用于文本分类

        设句子输入维度为(120,100),经过等长卷积后得到T2(120,50),其中50为卷积核个数。对于当前词对应的50维向量中,包含了其局部上下文信息。我们将T1与T2拼接,得到T3(120,178),T3通过全连接层得到T4(120,4),T4输入至CRF层,计算最终最优序列。最终模型BiLSTM-CNN-CRF如下。

图8 BiLSTM-CNN-CRF模型图

本文模型并不复杂,下文将讲述一下我实现时的一些细节。主要包括:

1. 模型输入需要固定长度,如何解决

2. 如何做好模型的实时训练

3. 与结巴分词的性能比较

4. 如何做成微信分词工具、分词接口服务


下文传送门:https://www.jianshu.com/p/8f406c861cec

相关文章

  • 基于BiLSTM-CNN-CRF的中文分词(一)

    在线演示:http://118.25.42.251:7777/fenci?type=mine&text=南京市长莅...

  • 基于BiLSTM-CNN-CRF的中文分词(二)

    上文传送门:https://www.jianshu.com/p/5fea8f42caa9 Github:https...

  • NLP系列-中文分词(基于统计)

    上文已经介绍了基于词典的中文分词,现在让我们来看一下基于统计的中文分词。 统计分词: 统计分词的主要思想是把每个词...

  • Lucene中文分词

    中文分词算法现在一般分为三类:基于字符串匹配,基于理解,基于统计的分词。 基于字符串匹配分词:机械分词算法,这里我...

  • 机器学习学习笔记(1)

    1. 分词方法 中文分词方法可以分为以下几种:1) 基于统计的分词方法 基于统计的分词法的基本原理是根据字符串在语...

  • 【Spark学习笔记】ansj词性说明

    背景 Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ICTCLAS 中文分词算法,比其他常用的开源...

  • jieba分词基本使用

    jieba “结巴”中文分词:做最好的 Python 中文分词组件 算法 基于前缀词典实现高效的词图扫描,生成句子...

  • Mmseg算法

    1. Mmseg算法简介 Mmseg是一种基于字符串匹配(亦称基于词典)的中文分词算法。传统的基于词典的分词方案虽...

  • 模块

    基于Node.js的中文分词模块node-segment

  • 中文分词器MMSEG4J分词练习

    1.MMSeg分词算法原理 MMSeg是Chih-Hao Tsai提出的基于字符串匹配(亦称基于词典)的中文分词算...

网友评论

  • 4e809f731001:你好,我想问一下,直接将CNN和bilstm直接合并起来是不是太草率了,用不用一个算法控制cnn和bilstm的权重
  • e91c2835382e:请问一下哈,将CNN的输出和BiLSTM的输出相拼接,是出于什么考虑?以及time distributed_1 layer和time distributed_2 layer的作用是什么?
    起昵称真麻烦啊:@carotaL 不好意思,之前忙忘回复了。bilstm得到的128维是整个句子的对当前位置的信息,cnn得到的50是当前位置前后窗口大小的局部信息。两者拼接相当于综合考虑了全局信息和局部信息。timedistribute layer起到降维作用,和普通软连接层类试,只不过是对每个时间步进行了全连接。

本文标题:基于BiLSTM-CNN-CRF的中文分词(一)

本文链接:https://www.haomeiwen.com/subject/xzymgttx.html