[Deep Learning] 增强学习

作者: jingy_ella | 来源:发表于2018-09-28 16:08 被阅读0次

本文是Deep Learning Course总结系列的第六篇，本文的主要内容是对增强学习进行介绍。
本系列前四篇传送门：第一篇 [Deep Learning] 神经网络基础；第二篇 [Deep Learning] 卷积神经网络 CNNs；第三篇 [Deep Learning] 集成学习Ensemble Learning&迁移学习Transfer Learning ；第四篇 [ [Deep Learning] 递归神经网络RNN ]（https://www.jianshu.com/p/5c22b41e9f07）。

Bandits

随机算法
UCB
应用：广告推送等conditional bandits、rounding

基本模式

Agent根据当前State来确定下一步的Action并获得Reward，State到Action的映射关系为Policy一般用 $\pi$ 表示。任务的目标是找到最优的Policy $a=\pi(s)$ 或 $\pi(a|s)$ 使得获取尽可能多的Reward。

Agent交互

发展史

马尔科夫决策过程（控制）-> 动态规划（value func）-> Q-learning
model-based
有限状态
model-free 基于sample
Q-learning- $\varepsilon$ -greedy
Q-learning- UCB

网友评论

本文标题：[Deep Learning] 增强学习

本文链接：https://www.haomeiwen.com/subject/jxspoftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

[Deep Learning] 增强学习

Bandits

基本模式

发展史

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读