对话系统-强化学习的介绍

作者: 又双叒叕苟了一天 | 来源:发表于2018-11-18 15:54 被阅读0次

对话系统-强化学习的介绍
Tensorflow2.x 深度强化学习——Policy Gra
强化学习在聊天机器人中的应用
UD机器学习 - C6 强化学习
强化学习基础篇（九）OpenAI Gym基础介绍
NLP之智能对话系统
《深入浅出机器学习》之强化学习
《深入浅出机器学习》之强化学习
强化学习与马尔可夫决策
AI学习笔记——MDP(Markov Decision Proc

原文：https://arxiv.org/abs/1805.09461?context=stat.ML

强化学习

在 RL 中，我们考虑一个顺序决策的过程。在该过程中，一个代理（agent）在时间 $t$ 和环境 $\varepsilon$ 交互。代理的目标是做一份特定的工作，例如：移动一个物体， play Go，一个 Atari 游戏或从新闻概括中选择最好的单词。

其观点就是：给出 $t$ 时刻的环境状态 $s_t$ ，代理根据策略（policy） $\pi(\hat y_t|s_t)$ 选择一个行为（action） $\hat y\in \mathcal A=\{1,\cdots,|\mathcal A|\}$ （ $\mathcal A$ 为输入输出共享的词汇表）并观察该行为的奖励（reward） $r_t$ 。

拿 seq2seq 举例，就是代理根据策略（ $\hat y_{t'}=\underset{y}{\arg \max}\pi_\theta(y|\hat y_t,s_{t'})$ ）采取行为（一个单词），最终通过像 ROUGE 这样的离散度量产生奖励作为反馈。

代理的目标是最大化奖励 $R_t=\sum_{\tau=t}^T\gamma^{\tau=t}r_t$ ，其中 $\gamma\in [0,1]$ 为折中直接和未来奖励的折扣元素。

在策略 $\pi$ 下，我们能够定义 $Q(s_t,y_t)$ 和 $V(s_t)$ 如下：
$\begin{align} Q_\pi(s_t,y_t)=\mathbb E[r_t|s=s_t,y=y_t]\\ V_\pi(s_t)=\mathbb E_{y\sim\pi(s)}[Q_\pi(s_t,y=y_t)] \end{align}\tag{6}$
于是 $Q$ 函数就能够通过递归来计算：
$Q_\pi(s_t,y_t)=\mathbb E_{s_{t'}}[r_t+\underbrace{\gamma \mathbb E_{y_{t'}\sim\pi(s_{t'})}[Q_\pi(s_{t'},y_{t'})]}_{V_\pi(s_{t'})}]\tag{7}$
给出了上述定义，我们就能够定义一个 advantage 函数将 $V$ 函数和 $Q$ 函数联系起来：
$\begin{align} A_\pi(s_t,y_t)=Q_\pi(s_t,y_t)-V_\pi(s_t)=\\ r_t+\gamma E_{s_{t'}\sim\pi(s_{t'}|s_t)}[V_\pi(s_{t'})]-V_\pi(s_t) \end{align}\tag{8}$
其中，对于一个决定性的策略 $\mathbb E_{y\sim\pi(s)}[A_\pi(s,y)]=0$ 。因为在确定性策略中（seq2seq），选择的策略为 $y^*=\underset{y}{\arg\max}Q(s,y)$ 。所以此时，在状态 $s_t$ 下选择的行为只有 $y*$ ，所以：
$V_\pi(s_t)=\mathbb E_{y\sim\pi(s)}[Q_\pi(s_t,y=y_t)]=Q_\pi(s_t,y=y^*)\\ A(s,y*)=Q(s,y*)-V(s)=0$
确定性策略：根据一个状态选择行为的方式固定，例如：选择概率最大的那个行为。相反，一些行为，例如：根据行为概率的大小随机选择行为，或者设定一个概率，例如：95% 选择概率最大的行为，5% 随机选择剩余行为，那么这个策略就存在不确定性。seq2seq 策略一般都是选择概率最大的行为，所以是确定性的。

$Q$ 函数表示的是，在状态 $s_t$ 下选择行为 $y_t$ 期望的奖励。 $V$ 函数表示的是在状态 $s_t$ 的情况下，根据策略 $\pi$ 选择一列行为期望奖励的期望。直觉上， $V$ 函数度量了模型能在特定状态 $s$ 下能表现的有多好。而 $Q$ 函数度量了在该状态下选择一个特定行为有多好。

通过这两个函数，我们就能够获得捕获每个行为重要性的 advantage 函数，通过相减，即式子（8）。它能反映我们在该状态下选择的行为所获得期望奖励，是否能够达到在该状态下，所有根据策略可以采取行为的期望奖励的平均水平。

action 的定义：举个例子就像是文本概括任务中，为一个概括选择下个词，在问答任务中，就像是回答的起始和结束的 index。

奖励函数的定义：随着任务不同而不同。例如文本概括中的 ROUGE 和 BLEU 度量，图像说明中的 CIDEr 和METEOR。

state 的定义：通常定义为 decoder 每个时刻的输出状态，可以看看最顶上的图片。

所以，我们使用 decoder 每个时刻的输出状态 作为模型的当前状态并用它计算我们的 $Q,V$ 和 advantage 函数。

强化学习的方法

强化学习中，代理与环境的交互目标是最大化action中reward的期望。于是我们尝试最大化下列目标函数之一：
$Maximize\mathbb E_{\hat y_1,\cdots,\hat y_T \sim\pi_\theta(\hat y_1,\cdots,\hat y_T)}[r(\hat y_1,\cdots,\hat y_T)]\tag{9}$

$Maximize_yA_\pi(s_t,y_t)\tag{10}$

$Maximize_yA_\pi(s_t,y_t)\rightarrow Maximize_yQ_\pi(s_t,y_t)\tag{11}$

Policy Gradient (PG) ，优化（9）。

Actor-Critic (AC) ，优化（10）。

Q-learning models ，通过（7）优化（11），来改善 PG 和 AC 模型。
$Q_\pi(s_t,y_t)=\mathbb E_{s_{t'}}[r_t+\underbrace{\gamma E_{y_{t'}\sim\pi(s_{t'})}[Q_\pi(s_{t'},y_{t'})]}_{V_\pi(s_{t'})}]\tag{7}$

对话系统-强化学习的介绍
原文：https://arxiv.org/abs/1805.09461?context=stat.ML 强化学习 ...
Tensorflow2.x 深度强化学习——Policy Gra
在之前的文章中我们系统地介绍了强化学习，以及与神经网络相结合的深度强化学习。期间由于 Tensorflow 2.0...
强化学习在聊天机器人中的应用
1.深度强化学习在面向任务的对话管理中的应用 2.李纪为：用于对话生成的深度强化学习 3.基于深度强化学习打造聊天...
UD机器学习 - C6 强化学习
0 Abstract 先介绍强化学习前沿和背景，再介绍强化学习基本设置和定义，再介绍强化学习通用解决框架和方案，然...
强化学习基础篇（九）OpenAI Gym基础介绍
强化学习基础篇（九）OpenAI Gym基础介绍 1. Gym介绍 Gym是一个研究和开发强化学习相关算法的仿真平...
NLP之智能对话系统
一、智能对话系统概述 1.1 什么是智能对话系统所谓智能对话系统，简单来说就是使用各种先进的机器学习、深度学习、...
《深入浅出机器学习》之强化学习
机器学习中的强化学习：Q-learning学习指南所谓强化学习就是智能系统从环境到行为映射的学习，以使奖励信号(...
《深入浅出机器学习》之强化学习
机器学习中的强化学习：Q-learning学习指南所谓强化学习就是智能系统从环境到行为映射的学习，以使奖励信号(...
强化学习与马尔可夫决策
在上一篇文章强化学习的基本概念中，用大白话介绍了强化学习的一些基本概念，尤其是强化学习的基本过程。在了解了强化...
AI学习笔记——MDP(Markov Decision Proc
前面好几篇文章都在介绍强化学习（RL），以及强化学习的一些具体算法，但是强化学习中用到的最重要的理论MDP却还没提...