本文是Deep Learning Course总结系列的第六篇,本文的主要内容是对增强学习进行介绍。
本系列前四篇传送门:第一篇 [Deep Learning] 神经网络基础;第二篇 [Deep Learning] 卷积神经网络 CNNs;第三篇 [Deep Learning] 集成学习Ensemble Learning&迁移学习Transfer Learning ;第四篇 [ [Deep Learning] 递归神经网络RNN ](https://www.jianshu.com/p/5c22b41e9f07)。
Bandits
随机算法
UCB
应用: 广告推送等conditional bandits、rounding
基本模式
Agent根据当前State来确定下一步的Action并获得Reward,State到Action的映射关系为Policy一般用表示。任务的目标是找到最优的Policy或使得获取尽可能多的Reward。
发展史
马尔科夫决策过程(控制)-> 动态规划 (value func)-> Q-learning
model-based
有限状态
model-free 基于sample
Q-learning- -greedy
Q-learning- UCB
网友评论