美文网首页
[Deep Learning] 增强学习

[Deep Learning] 增强学习

作者: jingy_ella | 来源:发表于2018-09-28 16:08 被阅读0次

    本文是Deep Learning Course总结系列的第六篇,本文的主要内容是对增强学习进行介绍。
    本系列前四篇传送门:第一篇 [Deep Learning] 神经网络基础;第二篇 [Deep Learning] 卷积神经网络 CNNs;第三篇 [Deep Learning] 集成学习Ensemble Learning&迁移学习Transfer Learning ;第四篇 [ [Deep Learning] 递归神经网络RNN ](https://www.jianshu.com/p/5c22b41e9f07)。

    Bandits

    随机算法
    UCB
    应用: 广告推送等conditional bandits、rounding

    基本模式

    Agent根据当前State来确定下一步的Action并获得Reward,State到Action的映射关系为Policy一般用\pi表示。任务的目标是找到最优的Policya=\pi(s)\pi(a|s)使得获取尽可能多的Reward。

    Agent交互
    发展史

    马尔科夫决策过程(控制)-> 动态规划 (value func)-> Q-learning
    model-based
    有限状态
    model-free 基于sample
    Q-learning- \varepsilon -greedy
    Q-learning- UCB

    相关文章

      网友评论

          本文标题:[Deep Learning] 增强学习

          本文链接:https://www.haomeiwen.com/subject/jxspoftx.html