美文网首页
论文-Slot-Gated Modeling for Joint

论文-Slot-Gated Modeling for Joint

作者: 魏鹏飞 | 来源:发表于2019-12-25 16:25 被阅读0次

1.简称

论文《Slot-Gated Modeling for Joint Slot Filling and Intent Prediction》简称Slot-Gated Atten,作者:Chih-Wen Goo(National Taiwan University),经典的SLU论文(Semantic Frame)

2. 摘要

基于注意力的递归神经网络模型用于联合意图检测和空位填充,具有最先进的性能,同时具有独立的注意力权重。

考虑到时隙和意图之间存在很强的关系,本文提出一种时隙门,其重点是学习意图和时隙注意向量之间的关系,以便通过全局优化获得更好的语义框架结果。实验表明,与基准ATIS和Snips数据集上的注意力模型相比,我们提出的模型显着提高了句子级语义框架的准确性,相对注意模型分别提高了4.2%和1.9%。

3. 引言

口语理解(SLU)是口语对话系统的重要组成部分。 SLU旨在形成一个语义框架,以捕获用户话语或查询的语义。它通常涉及两个任务:意图检测和插槽填充(Tur和De Mori,2011)。这两项任务着重于预测说话者的意图并提取语义概念作为自然语言的约束。以与电影相关的话语为例,“find comedies by James Cameron”,如图1所示。话语中的每个单词都有不同的插槽标签,整个话语都有特定的意图。


插槽填充可以看作是序列标记任务,它将输入单词序列x =(x_1,...,x_T)映射到相应的插槽标签序列y^S =(y_1S,...,y_TS),并且意图检测可以看作是决定意图标签y^I的分类问题。时隙填充的流行方法包括条件随机场(CRF)和递归神经网络(RNN)(Yao等人,2014),以及不同的分类方法,如支持向量机(SVM)RNN,已被用于意图预测。

考虑到流水线方法由于其独立模型而通常会遭受错误传播,因此提出了一种用于时隙填充和意图检测的联合模型,以通过两个任务之间的相互增强来改善句子级语义(Guo等人,2014; Hakkani -Tür等人,2016; Chen等人,2016)。此外,注意力机制(Bahdanau等人,2014)被引入并利用到模型中,以提供精确的焦点,这使网络可以了解每个输出在输入顺序中应注意的地方标签(Liu and Lane,2015,2016)。 Liu和Lane(2016)提出的注意力模型实现了联合缝隙填充和意图预测的最新性能,其中缝隙填充和意图预测的参数在具有共同的目标。但是,先前的工作并未“明确”为意图和广告位之间的关系建模。相反,它应用了联合损失函数来“隐式”考虑这两个线索。由于插槽通常高度依赖于意图,因此本工作着重于如何通过引入插槽门控机制来建模插槽与意图向量之间的显式关系。贡献是三方面的:1)所提出的槽位-门控方法比基于注意力的模型具有更好的性能; 2)在两个SLU数据集上的实验表明了所提出的槽位门的一般性和有效性; 3)门控结果有助于我们分析插槽意图关系。

4. 核心

本节首先说明我们基于注意力的RNN模型,然后介绍用于联合插槽填充和意图预测的插槽门机制。模型架构如图2所示,其中有两个不同的模型。 (a)是一个既有插槽注意又有意图注意,(b)是只有意图注意。

4.1 Attention-Based RNN Model

双向的长-短期记忆网络(BLSTM)模型将一个单词序列X=(x_1,...,x_T)作为输入,然后生成前向隐层状态和后向隐藏状态。最后的隐藏状态h_i是第i个时间步前后向的关联。

Slot Filling:对于插槽填充,X映射到其相应的插槽标签序列y =(y_1^S,...,y_T^S)。对于每个隐藏状态h_i,我们计算插槽上下文向量c^S_i作为LSTM隐藏状态h_1,...,h_T的加权总和,通过可学习的注意力权重\alpha_{i,j}^S

c_i^S=\sum_{j=1}^T\alpha _{i,j}^Sh_j\tag{4.1.1}

插槽注意力权重计算如下:
\alpha _{i,j}^S=\frac{exp(e_{i,j})}{\sum_{k=1}^Texp(e_{i,k})} \\e_{i,k}=\sigma(W_{he}^Sh_k) \tag{4.1.2}

\sigma是激活函数,W_{he}^S是前馈神经网络的权重矩阵。然后,隐藏状态和插槽上下文向量是用于槽位填充。

y_i^S=softmax(W_{hy}^S(h_i+c_i^S))\tag{4.1.3}

其中y_i^S是输入的第i个单词的插槽标签,W_{hy}^S是权重矩阵。插槽注意力在图2(a)中显示为蓝色部分。

Intent Prediction:意图上下文向量c^I也可以与c^S相同的方式进行计算,但是意图检测部分仅采用BLSTM的最后一个隐藏状态。意图预测的模型类似:
y_I=softmax(W_{hy}^I(h_T+c^I))\tag{4.1.4}

4.2 Slot-Gated Mechanism

本节描述了在图2的红色部分中提出的的插槽门控机制。提出的插槽门控模型引入了一个附加门,该门利用意图上下文向量对插槽与意图之间的关系进行建模,以提高插槽填充性能。首先,将时隙上下文向量c^S_i和意图上下文向量c^I合并在一起(c^I在时间维度上广播,以使与c^S_i形状相同)通过时隙门控如图3所示:

g=\sum v·tanh(c_i^S+W·c^I)\tag{4.2.1}

其中vW分别是可训练的向量和矩阵。在一个时间步中对元素求和。 g可以看作是联合上下文向量(c^S_ic^I)的加权特征。我们使用gh_ic^S_i之间加权以得出y_i^S并替换(4.1.3)如下:

y_i^S=softmax(W_{hy}^S(h_i+c_i^S·g))\tag{4.2.2}

较大的g表示槽位上下文向量和意图上下文向量注意输入序列的相同部分,这还可以推断出槽位和意图之间的相关性更强,并且上下文向量对贡献更“可靠”预测结果。

为了比较具有注意机制的时隙门控的功能,我们还提出了一种仅具有专心注意的缝隙门控模型,其中将(4.2.1)和(4.2.2)分别改写为(4.2.3)和(4.2.4)(如图所示) 2(b)):

g=\sum v·tanh(h_i+W·c^I)\tag{4.2.1}
y_i^S=softmax(W_{hy}^S(h_i+h_i·g))\tag{4.2.2}

此版本允许槽位和意图共享注意力机制。

4.3 Joint Optimization

为了同时获得槽位填充和意图预测,目标制定为:
P(y^S,y^I|x) \\ =P(y^I|x)\prod_{t=1}^Tp(y_t^S|x) \\ =P(y^I|x_1,...,x_T)\prod_{t=1}^Tp(y_t^S|x_1,...,x_T) \tag{4.3.1}

其中p(y^S,y^I | x)是在给定输入单词序列的情况下理解结果的条件概率(时隙填充和意图预测),并且对于SLU最大化。

5. 实验

为了评估提出的模型,我们对基准数据集,ATIS(航空旅行信息系统)和Snips进行了实验。统计信息如表1所示。


5.1 Setup

ATIS(航空公司旅行信息系统)数据集(Tur等人,2010)被广泛用于SLU研究。数据集包含预订航班的人员的录音。训练集包含4,478语音,测试集包含893语音。我们将另外500种话语用于开发集。训练集中有120种插槽标签和21种意图类型。

为了证明所提出模型的一般性,我们使用Snips收集的另一个NLU数据集custom-Intent-engines(https://github.com/snipsco/nlu-benchmark/tree/master/2017-06-custom-intent-engines)进行模型评估。该数据集是从Snips个人语音助手收集的,其中每个意图的样本数量大致相同。训练集包含13,084语音,测试集包含700语音。我们将另外700种话语用作开发集。有72个插槽标签和7种意图类型。

与单域ATIS数据集相比,Snips的复杂程度更高,主要原因是意图多样性和词汇量大

表2显示了意图和相关的话语示例。关于意图的多样性,例如,Snips中的GetWeatherBookRestaurant来自不同的主题,因此产生了更大的词汇量。另一方面,ATIS中的意图都是关于飞行信息,并且它们之间具有相似的词汇。此外,ATIS的意图高度不平衡,其中atis flight约占培训数据的74%,而atis cheapest的仅出现一次。两个数据集之间的比较可以在表1中找到。

在所有实验中,我们将隐藏向量的大小设置为64,优化器为adam,报告的数目在20次运行中取平均值,ATIS和Snips的最大历时分别设置为10和20,并early-stop(提前停止)策略。

5.2 Results and Analysis

我们使用F1分数评估关于时隙填充的SLU性能,使用准确性评估意图预测,以及使用整体帧准确性评估句子级语义帧解析。实验结果显示在表3中,其中槽填充和意图预测的比较基线包括使用双向LSTM的基于序列的最新模型(Hakkani-Tür等人)(2016年)和基于注意力的模型(Liu和Lane,2016年)。我们通过统计显着性检验验证了性能提升在所有实验中,执行单尾t检验以衡量所提出模型的结果是否明显优于基线结果。带有星形标记的数字表明改善显着,p <0.05。

表3表明,在充分注意的情况下,所提出的时隙门控机制明显优于两个数据集的基线,其中几乎所有任务(时隙填充,意图预测和语义框架)都得到了改善,表明了显式建模插槽和意图之间的紧密关系可以有效地使SLU受益。在ATIS数据集中,所提出的仅出于意图注意的时隙选通模型以较少的参数(从284K到251K)实现了更好的性能。但是,它无法在Snips数据集中获得更好的结果。考虑到这些数据集的复杂程度不同,可能的原因是,更简单的SLU任务(如ATIS)不需要额外的插槽注意即可获得良好的结果,并且插槽门能够提供足够的提示来填充插槽。另一方面,Snips更复杂,因此需要注意插槽,以便更好地建模插槽填充(以及语义框架结果)。

显然,我们提出的模型尤其在句子级语义框架结果上表现更好,其中ATIS和Snips的相对改进分别约为4.1%和1.9%。

它可以归功于提出的插槽门,该插槽门学习了插槽意图关系,从而为联合模型的全局优化提供了有用的信息。总之,对于联合时隙填充和意图预测,实验表明,由于全局考虑,利用由时隙门控机制控制的显式时隙意图关系可以有效地实现更好的句子级语义框架性能。

6. 重点论文

  • Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2014. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
  • Daniel Guo, Gokhan Tur, Wen-tau Yih, and Geoffrey Zweig. 2014. Joint semantic utterance classification and slot filling with recursive neural networks. In Proceedings of 2014 IEEE Spoken Language Technology Workshop, pages 554–559. IEEE.
  • Dilek Hakkani-Tu ̈r, Go ̈khan Tu ̈r, Asli Celikyilmaz, Yun-Nung Chen, Jianfeng Gao, Li Deng, and Ye- Yi Wang. 2016. Multi-domain joint semantic frame parsing using bi-directional rnn-lstm. In Proceedings of INTERSPEECH, pages 715–719.
  • Bing Liu and Ian Lane. 2015. Recurrent neural net- work structured output prediction for spoken language understanding. In Proc. NIPS Workshop on Machine Learning for Spoken Language Under- standing and Interactions.
  • Bing Liu and Ian Lane. 2016. Attention-based recur- rent neural network models for joint intent detection and slot filling. In Proceedings of INTERSPEECH.
  • Gre ́goire Mesnil, Yann Dauphin, Kaisheng Yao, Yoshua Bengio, Li Deng, Dilek Hakkani-Tur, Xiaodong He, Larry Heck, Gokhan Tur, Dong Yu, et al. 2015. Using recurrent neural networks for slot fill- ing in spoken language understanding. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), 23(3):530–539.

7. 代码编写

本文源码的地址:https://github.com/MiuLab/SlotGated-SLU

# 后续追加代码分析

参考文献

  1. Goo, C.-W., Gao, G., Hsu, Y.-K., Huo, C.-L., Chen, T.-C., Hsu, K.-W., & Chen, Y.-N. (2018). Slot-Gated Modeling for Joint Slot Filling and Intent Prediction. Naacl-Hlt.

相关文章

网友评论

      本文标题:论文-Slot-Gated Modeling for Joint

      本文链接:https://www.haomeiwen.com/subject/zvyxoctx.html