（四）序列标注——实体识别BERT-BLSTM-CRF（下）

作者: 天生smile | 来源:发表于2018-12-05 11:08 被阅读2748次

（四）序列标注——实体识别BERT-BLSTM-CRF（下）
NLP知识图谱框架
车型实体识别
关于实体识别中数据增强的实践
（四）序列标注——实体识别LSTM-CRF（上）
（四）序列标注——实体识别Lattice-LSTM（中）
0.NLP技术总览
【笔记】序列标注方法&命名实体识别
NLP自然语言处理-第四章词性标注与命名实体识别
深度学习第10次作业机器学习循环序列模型

前面说的是ner的经典算法以及今年的一些比较好的工作，最近bert模型刷新了NLP的绝大部分任务，可谓是一夜之间火爆了整个NLP界，这里我简单记录下bert在NER上的使用，至于原理部分我后续的博客会做详细的说明。这里先暂时理解成bert同样也是产生embedding的工具就可以，只不过这个embedding比Word2vec的embedding要厉害。

ok 我们先设定下框架。

框架很简单，就是bert+Bilstm-CRF,前面讲了bert就是用来产生词向量的，所以如果抛开这个原理，这个升级版本的NER模型就很简单了。

这里先给出代码链接。BERT是Google提出的基于tensorflow1.11.0的代码，里面用了高级API，所以这篇博客我主要在代码层面讲一下bert的应用。原理部分我也做了详细的介绍，请戳。

bert的官方版本tensorflow和pytorch版本。

bert官方版本的代码写的非常好（虽然很难懂哈），这里借NER这个应用简单学习下：

1.数据准备

这里还是以中文数据为例，数据的格式还是和之前一样：

我们最终需要把数据转换成bert论文中的形式：

代码中的数据就是转成这样，这部分是纯工程问题，就不详细介绍：

接下来就讲一下这个高级API的用法：

1.代码中将所有数据封装成record的形式：

注意这里是对每一组数据进行逐条封装

2.读取record 数据，组成batch

这里主要也是通过回调函数完成

input_file就是保存的record文件，然后用d = tf.data.TFRecordDataset(input_file)读数据，这样就得到了一个batch的数据。

然后定义estimator封装器

有了这个封装器训练、验证测试都比较方便（难得读懂哟），这里的model_fn就是模型定义的的回调函数。

3.定义模型

大致思路：这个model_fn_builder是为了构造代码中默认调用的model_fn函数服务的，为了使用其他的参数，只不过model_fn函数的默认参数只有features, labels, mode, params，这四个，所以在model_fn包裹了一层model_fn_builder

注意这个init_checkpoint就是下载的模型，接下来我们看一下模型的构造即model_fn函数，以及他是如何使用init_checkpoint：

- 在这个回调函数中，第一步就是创建模型，这一步其实和之前的tensorflow的写法思路一样，都是在完成“图”这个部分，

那么creat_model里有啥呢，不看也知道，第一步就是拿到bert的输出了，也就是embedding = model.get_sequence_output()，后面就是在创造blstm_crf这块就不再讲了，到这儿是不是完了呢，显然不是，因为我们只是把图建完了，bert的预训练的参数还没有喂给模型呢，接下来就是create_model后面一部分，加载模型预训练参数：