美文网首页
David Silver深度强化学习-1-学习笔记

David Silver深度强化学习-1-学习笔记

作者: 小白之白小明 | 来源:发表于2017-11-24 22:09 被阅读134次

刚开始学习强化学习,有些地方也不是很明白,但是基本都记了下来,这是第一课的学习笔记,放上来与大家分享,如果有错误希望大家指出。

原创 -- 小萌至上

1. 增强学习的本质:理解最佳的方式来制定决策

  • 不同于监督学习或无监督学习,不存在监督者,但是有奖励信号,根据奖励信号知道什么是对,哪样做更好,哪样做加2分,哪样做加5分,这个奖励就是“标量反馈信号”
  • 类似于小孩试错的过程
  • 当得到反馈,这个结果不是立刻得到,而是存在时间延迟,这是增强学习的特点
  • 很久以后,回顾之前的决策,在当时看起来是对的,甚至当时还有正面的奖励,但经历几个过程之后,当时看起来正面的决定现在看起来是大错特错的
  • 传统的机器学习是将独立分布的数据给机器,让机器自己去学习。强化学习里面 agent(代理)需要和外部环境进行交互,agent 会根据环境变化,采取措施来应对环境的变化。每一步都会影响下一步举措,所以不适合采用独立的范式。

2. 强化学习框架

  • 试用于所有问题,有一个统一的目标
    注:需要提前计划,考虑未来

3. Markov 链

  • 下一时刻的 state,仅由当前的 state 决定,与之前的 state 无关
    例:直升机要决定下一步飞行的速度和方向,只取决于当前的位置、风向等,与之前所走得了路线和速度无关。

4. agent 的三个重要参数

  • policy:表示能够采取的行动,是一个行为函数。该函数以agent 的状态作为输入,以下一步的行动决策作为输出。
  • value:评价 agent 在采取某种行动之后的好坏,即预期奖励。
  • model:用来感知环境是如何变化的。
    举个例子:一个迷宫,需要从入口走到出口,agent表示人物,policy 表示每个格子下一步可以走的方向,agent 表示走到这一步会加或减多少分。

5. 接下来以一张图来解释循环神经网络


疑问:若有两个或多个目标,增强学习算法怎样确定选择哪一个?
答:每一个选项,根据一些衡量标准,可以进行比较。把比较结果转换成标量反馈信号,然后就可以比较了。

6. history:选项序列→观察→采取行动→获得奖励

  • state:状态、总结,每经历一个步长,就构建一个 state,是 history 的函数

7. 探索与开发之间的平衡

  • exploration(探索):发现更多关于环境的信息,即未知的信息
  • expectation(开发):开发利用你所找到的信息,即已知的信息
    agent 需要平衡这两者,进而最大化奖励。
    举例:去饭店吃饭,exploration 表示去一家新开的饭店,expectation 表示去曾经去过最喜欢的一家。
  • prediction 控制:遵循现在的 policy,在未来会变得怎么样。
  • control 预测:最有的 policy 该怎么做才能得到最多的 reward。

相关文章

网友评论

      本文标题:David Silver深度强化学习-1-学习笔记

      本文链接:https://www.haomeiwen.com/subject/vbptbxtx.html