美文网首页
强化学习

强化学习

作者: 加油11dd23 | 来源:发表于2021-04-04 23:05 被阅读0次

https://www.cnblogs.com/pinard/p/9714655.html
https://zhuanlan.zhihu.com/p/360146610
https://www.bilibili.com/video/BV1UE411G78S?p=6
https://zhuanlan.zhihu.com/p/93404190
https://datawhalechina.github.io/easy-rl/

一、简介

概括来说,RL要解决的问题是:让agent学习在一个环境中的如何行为动作(act), 从而获得最大的奖励值总和(total reward)。
这个奖励值一般与agent定义的任务目标关联。

agent需要的主要学习内容:
第一是行为策略(action policy), 第二是规划(planning)。
其中,行为策略的学习目标是最优策略, 也就是使用这样的策略,可以让agent在特定环境中的行为获得最大的奖励值,从而实现其任务目标。

行为(action)可以简单分为:

  • 连续的:如赛 车游戏中的方向盘角度、油门、刹车控制信号,机器人的关节伺服电机控制信号。
  • 离散的:如围棋、贪吃蛇游戏。 Alpha Go就是一个典型的离散行为agent。

(一)、基本结构

image.png image.png

二、方法介绍

http://fancyerii.github.io/books/rl1/
https://zhuanlan.zhihu.com/p/25239682
https://zhuanlan.zhihu.com/p/61731174

(一)、value-based

1、Q-learning

2、Sarsa

3、Deep Q network

image.png
image.png

(二)、policy-based

https://www.youtube.com/watch?v=z95ZYgPgXOY
https://zhuanlan.zhihu.com/p/75174892

image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png

(三)、目前AutoML模型压缩最常用的强化学习算法

bilibili李宏毅2020强化学习

1、A3C最基础的actor-critic算法

image.png
image.png
image.png

2、Reinforce(离散策略梯度)

3、DDPG(连续 策略梯度)

https://github.com/TianhaoFu/easy-rl
https://blog.csdn.net/kenneth_yu/article/details/78478356

image.png

相关文章

网友评论

      本文标题:强化学习

      本文链接:https://www.haomeiwen.com/subject/wqnlkltx.html