-
强化学习路在何方?
很犀利的一篇文章, 对RL方向的总结与展望, 适合迅速建立知识体系 -
逆向强化学习
IRL方向的概论 -
学徒学习 Apprenticeship learning via inverse reinforcement learning
算是IRL最初的样子, 很像GAN, reward function靠学 ,像GAN的D
没细看 -
阅读笔记:Generative Adversarial Imitation Learning
用GAN实现的IRL, 判别器识别是否是专家路径, 推导没看懂先放着 -
GAIL生成对抗模仿学习详解
一样是GAIL的文章, 之后一起看 -
价值函数的近似表示与Deep Q-Learning
讲DQN的, 用RNN之类的输入当前状态,输出所有的action和其对应的Q, 取argmax拿到action, 再进真实环境去拿reward做bp -
强化学习—DDPG算法原理详解
DDPG 用了两个网络, actor网络用S出A , critic网络用来根据S和A出Q
actor出了Action后去真实环境拿reward, 进行迭代
网友评论