手把手教你强化学习 (一) 强化学习基本概要 (下)

作者: 小小何先生 | 来源:发表于2020-03-14 10:35 被阅读0次

手把手教你强化学习 (一) 强化学习基本概要 (下)
手把手教你强化学习 (一) 强化学习基本概要 (上)
强化学习基础知识详解
强化学习与马尔可夫决策
UD机器学习 - C6 强化学习
2019-04-18派森学习第150天
强化学习笔记（1）--概述
基础
强化学习基础篇（一）强化学习入门
DQN算法

[图片上传失败...(image-cb5ca-1584153321492)]

上节聊完了这个强化学习从直观上的一些理解。以及它和其他的机器学习方法的一些异同点。这一节来唠唠强化学习中的一些基本的概念及其组成部分。主要就是一些概念，将其罗列出来，方便理解和观看。

强化学习中的基本概念

Agent

Agent中文名称一般被称为智能体，或者称之为“玩家”，是整个强化学习算法的核心。整个的学习过程都在智能体内部，外部基于一些数据。是整个强化学习中最核心的部分。智能体通过action与环境交互，获得奖励反馈，进而学习调整动作以获取更大的奖励。

image

智能体除了需要获得更多的奖励之外，还有一个另外一个指标衡量其学习算法：学习时间。一个好的算法会用较短时间学会相同任务。对这个问题，在实践过程中，我们通常考虑的是训练样本的使用率(Sample Efficiency)。

Policy Function

Policy Function中文叫策略函数，这个策略就是智能体的行为准则。就像每个人不同的处事风格，当两个人看到同一个问题，解决方法往往很难一模一样。在强化学习里，看到相同的状态，所采取的动作不同，背后的原因就是Policy的不同。也有一些论文基于强化学习做用户个性化推荐，比如：淘宝。策略函数其实是一种映射，将环境的状态值 $s_{t}$ 映射到一个行动集合的概率分布或概率密度函数上。

Value Function

Value Function中文叫值函数，描述地是当前状态的好坏，它会依赖于当前的Policy。举个例子来说，在斗地主的过程中拿到一手这样的牌：王炸、四个2、四个A这种，如果让一个正常水平的人对线的话，这手牌的值函数是比较大的，如果让我两岁的小外甥去打，这种Policy可能就太差了，导致这个值函数也会比较低。所以说它会依赖于当前的policy。通常将值函数定义为 $v(s)$ ，它本身定义的是智能体所能拿到的期望奖励。最优值函数(the optimal value function)是所有值函数中值最大的那一个，最优策略(optimal policy)是能拿到最优值函数的那个策略。

Model

Model是用来感知环境是如何变化的，这里并不是真实的环境，而是在Agent眼里面的环境，Model就是用来判断环境变化的。强化学习算法大致可以分为两大类：基于模型的方法(Model-Based)和无模型方法(Model-Free)。

image

在Model-Based的方法里面，智能体会利用之前所学得的模型信息去完成一个任务；在Model-Free方法中，智能体仅仅依赖不断试错的一些经验数据进行学习。如果以人类为例的话，Model-Based方法就相当于知道整个世界的地图，你可以用地图做出出行的选择，而在无模型方法中，你需要不断地尝试，自己去构建这样的地图，当你探索了所有的地方之后，你才能知道哪条路是最短路径。

智能体如何与环境交互？

上文介绍了智能体需要与环境交互来获得更大的期望奖励，而奖励直接与控制效果挂钩，从而达到智能体做出先进的智能决策。那智能体是如何与环境交互获取数据的呢？

智能体在时间 $t$ 采取动作 $A_{t}$ ，并将这个动作送到环境中去，环境将会从状态 $S_{t}$ 转移到下一个状态 $S_{t+1}$ ，基于上述过程环境还将给予一个奖励反馈 $R$ ，如此往复。强化学习要做的就是使得整个序列所能获得的期望奖励最大。如下图所示：

[图片上传失败...(image-9d7475-1584153321492)]

举个例子解释一下：假设控制一个电机(马达)，加大电流转速会增加。假设当前状态 $S_{t}$ 电机转速500(转/分)，有一个智能体 $A$ ，在时间 $t$ 给了一个加大电流5安培的动作 $A_{t}$ ，电机的转速，也就是状态就会发生改变，转移到下一个状态 $S_{t+1}$ ：转速1000(转/分)，如果此时的控制系统刚好要求电机转速是1000(转/分)，那么就会得到一个+1的奖励。

环境有多少种呢？

强化学习现在也是被用于各种领域，什么天上飞的，水底游的，陆地上跑的都有，那这些东西总结起来可以归为几类呢？从不同的角度，主要可分为以下7类：

Deterministic Environment

在确定性环境里面，基于当前状态给一个动作，他的输出是确定的。比如下围棋，落子这个动作一旦确定，那环境接下来的状态也都确定了。

Stochastic Environment

环境带有随机性，比如受一些外部的扰动，导致环境的参数发生一些变化等等，这种控制对象就是不稳定的会发生一些跳变，或者突变。

Fully Observable Environment

智能体能观测到环境的所有信息，称之为完全可观测环境。比如像围棋这种，能看到整个棋盘，以及所有时间序列的对手落子位置。

Partially Observable Environment

部分可观测环境，即环境的信息有一部分是不可见的，比如说斗地主时对方手中的牌，以及星际争霸中的战争迷雾都属于部分可观测的，或者称作非完美信息。

Discrete Environment

当你的动作选择是离散的时候，我们称这类环境叫做离散环境，像围棋这种。

Continuous Environment

当动作选择是连续的时候，这类环境叫做连续环境，像上文中说的控制电机的例子，动作是电流的输出，输出电流是一个连续值。

Episodic And Non-Episodic Environment

依据序列动作之间是否具有相关性，可以将环境分为Episodic和Non-Episodic两类。episodic也被称作non-sequentia environment，当前的action不会影响未来的action。Non-Episodic也被称作sequential environment，智能体所有的动作之间都是存在相互关联的，类似打牌的时候出牌顺序也是相互关联的。

这个类似的概念在Sutton那本书中也有类似的介绍，原文如下：

In the preceding section we described two kinds of reinforcement learning tasks, one in which the agent– environment interaction naturally breaks down into a sequence of separate episodes (episodic tasks), and one in which it does not (continuing tasks).

中文大概的意思就是：强化学习任务分为两类，一类是智能体与环境交互达到一定的次数之后自然终止，另一类是一个episodes的序列有无穷多个。并且定义一个episode终止时刻的状态：absorbing state，每次都将转移到本身这个状态。

[图片上传失败...(image-19beab-1584153321492)]

Single and multi-agent environment

Single and multi-agent environment顾名思义，就是单个智能体的环境和具有多个智能体的环境。多智能体一般用于一些更加复杂的任务，一般这种场景的随机性、不确定性更高。

更具体的强化学习的实验环境介绍，为了保持整个强化学习系列看起来比较简洁，我将其单独列为了一篇文章：深度强化学习中实验环境-开源平台框架汇总。

强化学习应用场景

强化学习的目前应用场景有经典控制、游戏博弈、股票预测，电网优化，控制机器人等。具体一点的话，有教育行业，依据学生的行为风格，用强化学习制定个性化的学习策略。DeepMind公司也有将强化学习用于药物、医疗方面。其实还有好多好多，像推荐系统，自然语言处理，视频监控等方面都有涉及。

微信公众号

我的微信公众号名称：深度学习先进智能决策
微信公众号ID：MultiAgent1024
公众号介绍：主要研究深度学习、强化学习、机器博弈等相关内容！期待您的关注，欢迎一起学习交流进步！

手把手教你强化学习 (一) 强化学习基本概要 (下)
[图片上传失败...(image-cb5ca-1584153321492)] 上节聊完了这个强化学习从直观上的...
手把手教你强化学习 (一) 强化学习基本概要 (上)
强化学习基本简介在19年4月，有写过一篇强化学习的入门直观简介。强化学习通俗入门简介(一)。感兴趣的可以看一...
强化学习基础知识详解
强化学习（Reinforcement Learning）强化学习基本概念强化学习四要素：状态(state)、动...
强化学习与马尔可夫决策
在上一篇文章强化学习的基本概念中，用大白话介绍了强化学习的一些基本概念，尤其是强化学习的基本过程。在了解了强化...
UD机器学习 - C6 强化学习
0 Abstract 先介绍强化学习前沿和背景，再介绍强化学习基本设置和定义，再介绍强化学习通用解决框架和方案，然...
2019-04-18派森学习第150天
想要用强化学习改进派工算法。强化学习在之前学习过一个Q-learning算法。强化学习的基本写法和神经网络很相...
强化学习笔记（1）--概述
目录：强化学习问题强化学习的组成智能体的组成强化学习分类强化学习一些重要概念 1. 强化学习问题面向智...
基础
什么是强化学习？强化学习是机器学习的一个分支。机器学习分为监督学习，无监督学习，强化学习。强化学习简单来说，...
强化学习基础篇（一）强化学习入门
强化学习基础篇（一）强化学习入门本文主要基于David Silver的强化学习基础课程进行总结回归梳理强化学习的...
DQN算法
强化学习概要定义 1、环境指的是智能体执行动作时所处的场景，而智能体则表示强化学习算法。环境首先向智能体发送一个...