https://www.cnblogs.com/pinard/p/9714655.html
https://zhuanlan.zhihu.com/p/360146610
https://www.bilibili.com/video/BV1UE411G78S?p=6
https://zhuanlan.zhihu.com/p/93404190
https://datawhalechina.github.io/easy-rl/
一、简介
概括来说,RL要解决的问题是:让agent学习在一个环境中的如何行为动作(act), 从而获得最大的奖励值总和(total reward)。
这个奖励值一般与agent定义的任务目标关联。
agent需要的主要学习内容:
第一是行为策略(action policy), 第二是规划(planning)。
其中,行为策略的学习目标是最优策略, 也就是使用这样的策略,可以让agent在特定环境中的行为获得最大的奖励值,从而实现其任务目标。
行为(action)可以简单分为:
- 连续的:如赛 车游戏中的方向盘角度、油门、刹车控制信号,机器人的关节伺服电机控制信号。
- 离散的:如围棋、贪吃蛇游戏。 Alpha Go就是一个典型的离散行为agent。
(一)、基本结构


二、方法介绍
http://fancyerii.github.io/books/rl1/
https://zhuanlan.zhihu.com/p/25239682
https://zhuanlan.zhihu.com/p/61731174
(一)、value-based
1、Q-learning
2、Sarsa
3、Deep Q network


(二)、policy-based
https://www.youtube.com/watch?v=z95ZYgPgXOY
https://zhuanlan.zhihu.com/p/75174892











(三)、目前AutoML模型压缩最常用的强化学习算法
bilibili李宏毅2020强化学习
1、A3C最基础的actor-critic算法



2、Reinforce(离散策略梯度)
3、DDPG(连续 策略梯度)
https://github.com/TianhaoFu/easy-rl
https://blog.csdn.net/kenneth_yu/article/details/78478356

网友评论