Neural Models for Sequence Chunk

作者: leta_lan | 来源:发表于2017-07-21 14:25 被阅读0次

Neural Models for Sequence Chunk
2021-02-02
Sequence models
2018-12-14 论文笔记seq2seq
An Actor-Critic Algorithm for Se
信息检索论文集
多头神经网络
Introduction of Sequence models
论文阅读：BiLSTM-CRF实现序列标注
论文-Attention-Based Recurrent Neu

论文：https://arxiv.org/pdf/1701.04027.pdf

亮点：以前都是给每个字标标签(sequence labeling)，这篇文章是给每个chunk标标签(sequence chunking)

In this paper, we propose an alternative approach by investigating the use of DNN for sequence chunk- ing, and propose three neural models so that each chunk can be treated as a complete unit for labeling.

Introduction

IOB scheme 不好：1）IOB是间接地学习chunks的范围，没有充分利用训练数据；2）一些神经网络可以解码出上下文信息但不能将每个chunk当作一个单元
Sequence chunking把原先的sequence labeling task分为两个子任务:

Segmentation. 识别chunks的范围
Labeling. 把识别出的每个chunk作为一个单元标label

这篇文章依赖于神经网络结构取进行分段，用了两个方法：1）IOB labels；2）pointer networks and three neural sequence chunking models。第二种方法结果好。

Proposed Models （3个）

Model 1
先对每个字分类，分成三类 { I, O, B }；然后再对每个chunk(B+I)取平均后分类，分为chunk label。若有错误的，比如I在O的后面，就把第一个I当作B。

缺点：单个BLSTM可能不会在segmentation和labeling任务上表现的都很好
Model 2

encoder-decoder framework
encoder：BLSTM for segmentation with IOB labels，和model 1一样。把顶层hidden作为句子表示特征 [hf_T, hb_1]，用来初始化decoder LSTM。
decoder：LSTM for labeling. 由三部分组成输入：1）以每个chunk作为单个输入，用CNNMax提取chunk中单词的重要特征。2）chunk的context word embeddings；3）把encoder BLSTM的hidden取平均。
缺点：IOB不能利用chunk-level特征，也不能直接比较不同的chunk。包括shift-reduce算法，都是将多分类任务转为三分类任务。
Model 3

Model 3. 黑色向下小箭头是起始点，红色部分是终结点。decoder的输入与model 2相同贪婪方法：一旦识别出一个chunk就label it，直到所有字都处理了。
因为chunks都是相连的，我们知道当前chunk的起始点就是上一个chunk的终结点的后一个字，因此只需要识别出当前chunk结束点在哪 -> pointer network

Pointer network 在一个可能的chunk的起始点，对之后m个字用Eq.(6)计算特征向量，然后用Eq.(7)选取最大可能的字作为终结点。
learning objective
L = L_seg + L_label

Experiments

text chunking
CoNLL 2000: 8936 training and 893 test, 12 labels
只有model 3超过baseline（BLSTM）
**slot filling **
ATIS: 4978 training and 893 test, 84 labels
LARGE: (ATIS + MIT Restaurant + MIT Movie Corpus) 30229 training and 6810 test, 116 labels, 3 different domains.（提出者）
LARGE的词汇量和chunk长度都比较大，当chunk长度大的时候，三个模型都明显表现不好