对话系统-seq2seq模型介绍及存在的问题

对话系统-seq2seq模型介绍及存在的问题

作者: 又双叒叕苟了一天 | 来源:发表于2018-11-18 15:50 被阅读0次

对话系统-seq2seq模型介绍及存在的问题
Paper Weekly 第四期
Get To The Point: Summarization
从seq2seq到注意力机制
Seq2Seq模型概述
深度模型Attention
A Diversity-Promoting Objective
02-seq2seq原理与实践
详解从 Seq2Seq模型、RNN结构、Encoder-Deco
实用工具介绍

原文：https://arxiv.org/abs/1805.09461?context=stat.ML

简单的seq2seq模型

seq2seq模型
训练步骤：

对于每个输入序列 input $X$ 和输出序列 output $Y$ ：

在 $X$ 上运行 encoding，并获得 encoder 的最终状态 $h_{T_e}$ 。
将 $h_{T_e}$ 传入第一个 decoder，并获得采样的输出序列 $\hat{Y}$ 。
根据式（3）计算损失并更新模型参数。

$\mathcal L_{CE}=-\sum_{t=1}^{T}\log{\pi_\theta(y_t|y_{t-1},s_t,c_{t-1},X)}\tag3$

测试步骤：

对于每个输入序列 input $X$ 和输出序列 output $Y$ ：

使用训练过的模型通过式（4）采样输出 $\hat{Y}$
通过一个度量，例如：ROUGE 等来评估模型

$\hat y_{t'}=\underset{y}{\arg \max}\pi_\theta(y|\hat y_t,s_{t'})\tag4$

seq2seq模型训练和测试

seq2seq模型的两个问题

暴露偏差（exposure bias）
训练和测试的度量不一致

1 暴露偏差

两个主要原因：

训练时最小化的是交叉熵损失，而测试时用的是离散度量。
由于训练时使用了 teacher forcing 的方式，decoder 的训练依赖于真实值 $y_t$ ，而在测试阶段，真实值是没有的。

teacher forcing： teacher forcing 是一种训练技术，我们训练集中正确的输出反馈到 h(t+1)，当模型部署后，真正的输出通常是未知的。这时，我们将模型的输出近似等于正确的输出，反馈给模型。

为了避免这个问题，我们可以采用计划抽样法（scheduled sampling method）。

计划抽样法

我们先使用交叉熵预训练模型，然后慢慢将真实值替换成模型本身的 action。我们以概率 $\varepsilon$ 用真实值，以概率 $(1-\varepsilon)$ 用模型自身的 action。当 $\varepsilon=1$ 时，为式（3），即全用真实值。当 $\varepsilon=0$ 时，为式（5），即全用自身的 action。
$\mathcal L_{Inference}=-\sum_{t=1}^T\log{\pi_\theta(\hat y_t|\hat y_1,\cdots,\hat y_{t-1},s_t,c_{t-1},X)}\tag5$

2 训练和测试的度量不一致

我们训练时使用的交叉熵误差，而测试时使用的是不可微的度量，例如：BLEU 和 ROUGE，这就会导致训练目标和测试目标不匹配，结果不一致。

这两个问题都可以通过强化学习来处理。

相关文章

对话系统-seq2seq模型介绍及存在的问题
原文：https://arxiv.org/abs/1805.09461?context=stat.ML 简单的se...
Paper Weekly 第四期
这一期主要介绍两篇个关于seq2seq的论文，这是一个类似于编码-解码的模型，用在对话系统比较多，我对于这一块也是...
Get To The Point: Summarization
问题： seq2seq来自动生成摘要存在两个问题：问题一不能准确复制事实细节问题二会重复生成某个词模型：...
从seq2seq到注意力机制
seq2seq 模型 seq2seq模型诞生于语言模型的相关任务中，最初是用来处理翻译问题的，解决了将任意长度的输...
Seq2Seq模型概述
seq2seq序列到序列模型本文从RNN角度出发，主要是讲述seq2seq模型的原理。 Seq2Seq模型简介 ...
深度模型Attention
Attention机制源于对Seq2Seq模型的几个问题优化。Seq2Seq是基于Encoder-Decoder架...
A Diversity-Promoting Objective
火爆的QA系统，现在常采用seq2seq的模型来做，这篇文章是为了优化一个问题。seq2seqm模型通常的回复会是...
02-seq2seq原理与实践
目录原理部分机器翻译发展历史 Seq2Seq网络基本架构 Seq2Seq网络应用 Seq2Seq存在的问题 A...
详解从 Seq2Seq模型、RNN结构、Encoder-Deco
一、Seq2Seq 模型 1. 简介 Sequence-to-sequence (seq2seq) 模型，顾名思义...
实用工具介绍
1 自动对联系统 1.1王斌开发的seq2seq 声称是从网上抓了几百万的对联数据，用 seq2seq 模型做了这...

网友评论

本文标题：对话系统-seq2seq模型介绍及存在的问题

本文链接：https://www.haomeiwen.com/subject/fwjgfqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|对话系统-seq2seq模型介绍及存在的问题|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！