强化学习一——Introduction

作者: LIKESUNE | 来源:发表于2023-06-26 18:30 被阅读0次

Lecture 6: Value Function Approx
Proximal Policy Optimization Alg
Divid Silver RL课程的记录
Learning to Navigate in Complex
强化学习笔记（1）--概述
基础
强化学习基础篇（一）强化学习入门
强化学习基础知识详解
强化学习+关系抽取论文阅读
基于Python的深度学习刘哲宁

1. 基本概念

比如AlphaGo下围棋，AlphaGo就是强化学习的训练对象,AlphaGo走的每一步不存在对错之分，但是存在“好坏”之分。当前这个棋面下，下的“好”，这是一步好棋。下的“坏”，这是一步臭棋。强化学习的训练基础在于AlphaGo的每一步行动环境都能给予明确的反馈，是“好”是“坏”？“好”“坏”具体是多少，可以量化。强化学习在AlphaGo这个场景中最终训练目的就是让棋子占领棋面上更多的区域，赢得最后的胜利。

在强化学习中，学习者和决策者统称为智能体（agent)。除了智能体自身外，智能体打交道的任何东西都可以称为环境（environment）。例如在自动驾驶中，自动驾驶车辆称为智能体，其学习驾驶策略并执行学到的驾驶策略；除了自动驾驶车辆之外的其他东西称为环境。

2. 智能体的组成部分

策略（Policy）策略是从状态到动作的一个映射，智能体根据策略来选取动作。这是强化学习的目标，我们就是为了学习一个最优策略，本质上是个概率分布。我们一般用 $\pi(a|s)$ 来表示在s条件下行动是a的条件概率。
价值函数（Value Function）用价值函数来评估当前状态的好坏程度。有
模型（Model）智能体对环境的建模。

2.1策略

策略就是告诉智能体在每个状态下该如何行动，即智能体在当前状态下根据策略来选取的动作，所以策略是从状态到动作的一个映射。强化学习的最终目标就是学到一个策略，告诉智能体该如何行动，在强化学习中策略一般用π来表示。策略分为：确定策略和随机策略。

确定策略（Deterministic policy）： $\pi(a|s)=1$ ，处于状态s时，智能体选取的动作a是确定的。
随机策略（Stochastic policy： $π(a|s)=P[A_t=a|S_t = t]$ ，处于状态s时，智能体以一定概率选取动作a。随机策略 $\pi_(a|s)$ 是智能体处于状态s时，关于选取动作a的概率分布。我们通常把随机策略表示成 $π_\theta(a|s)$ ，其中 $\theta$ 是策略的参数。在深度强化学习中， $\theta$ 就是神经网络的权值（weights）。

2.2 价值函数

这里的价值函数有两种：
State Value :表示的是根据策略 $\pi$ ，某个状态s的价值，用 $v_\pi(s)$ 表示。
Action Value:表示的是根据策略 $\pi$ ，某个状态s下，采取行动a的价值，用 $q_\pi(s,a)$ 表示。
在我们的value-based方法中，我们需要根据每个(s,a)对应的 $q_\pi(s,a)来进行a的选择。$

2.3 模型

其实我们关注的主要就是 $P(r|s,a)$ 和 $P(s'|s,a)$ 。如果这两个概率我们已经知道了求解最优策略叫做model-based，不知道这两个概率信息的情况下求解最优策略就叫做model-free。

3. 策略求解的三个关键因素

State（状态）： 当前 Environment和Agent所处的状态，因为Ghost一直在移动，豆子数目也在不停变化，Agent的位置也在不停变化，所以整个State处于变化中；这里特别强调一点，State包含了Agent和Environment的状态。
Action（行动）： 基于当前的State，Agent可以采取哪些action，比如向左or右，向上or下；Action是和State强挂钩的，比如上图中很多位置都是有隔板的，很明显Agent在此State下是不能往左或者往右的，只能上下；
Reward（奖励）： Agent在当前State下，采取了某个特定的action后，会获得环境的一定反馈就是Reward。这里面用Reward进行统称，虽然Reward翻译成中文是“奖励”的意思，但其实强化学习中Reward只是代表环境给予的“反馈”，可能是奖励也可能是惩罚。比如Pacman游戏中，Agent碰见了Ghost那环境给予的就是惩罚。

4. 智能体分类

基于策略（policy based）的智能体直接学习策略 $\pi(a|s)$ ，不需要学习价值函数。
基于价值（value based）的智能体学习价值函数，通过价值函数隐式地得到策略。
演员-评论家（Actor Critic）的智能体是基于策略和基于价值的结合，既学习策略，也学习价值函数。

网友评论

本文标题：强化学习一——Introduction

本文链接：https://www.haomeiwen.com/subject/uhhgydtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

强化学习一——Introduction

1. 基本概念

2. 智能体的组成部分

2.1策略

2.2 价值函数

2.3 模型

3. 策略求解的三个关键因素

4. 智能体分类

相关文章

Lecture 6: Value Function Approx

Proximal Policy Optimization Alg

Divid Silver RL课程的记录

Learning to Navigate in Complex

强化学习笔记（1）--概述

基础

强化学习基础篇（一）强化学习入门

强化学习基础知识详解

强化学习+关系抽取论文阅读

基于Python的深度学习刘哲宁

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读