策略梯度方法好文
reinforcement leaning:an introduction的读书笔记
- 介绍了流行的SGD梯度更新
- 介绍了Gradient Monte Carlo 和Semi-gradient TD(0)算法
- 把根据target是否自举,又可以分为半梯度更新
- 最后提到了状态聚合,介绍了组的含义。
reinforcement leaning:an introduction的读书笔记
本文标题:策略梯度方法好文
本文链接:https://www.haomeiwen.com/subject/zwgdyhtx.html
网友评论