美文网首页
L1-intro_RL

L1-intro_RL

作者: 山的那边是什么_ | 来源:发表于2017-09-23 19:19 被阅读25次

Introduction to Reinforcement Learning

1. about

1.1 和其他机器学习的关系

2. 什么是增强学习

2.1 强化学习和其它机器学习的差异

  1. 不是监督学习,没有监督者。会有奖励信号(reward signal),根据奖励信号,作出相应的决策
  2. 反馈被延迟--容易造成灾难后果
  3. 时间很重要
  4. anget(代理)的行动(action)在不同的数据条件下会有不同的结果,是一个主动学习的过程

2.2 例子

3 增强学习的基本介绍

3.1 rewards(奖励)


1.reward是一个标量。
2.表明每一步agent做了什么
3.agent的任务是累加每一步的reward,达到最大
定义:累积求最大化的过程。

3.1.1 奖励的例子

3.2 Sequential Decision Making(连续决策)


目标:选择actions最到化未来的奖励

  1. actions是长期的
  2. 奖励可能延迟
  3. 现在可能会放弃好的奖励,但是未来的奖励会最大
    类似投资,短期是亏钱的,但是长期你是赚钱的

3.3 Agent and Environment


大脑可以看作是一个agent,负责作出行动action
两个输入:observation:外界环境信息、reward:奖励大小
输出:action,是根据输入作出的action


外部环境:地球产生reward、observation
大脑:agent(代理),负责作出行动
可以看出这是一个随着时间循环的过程,大脑根据外界环境作出行动,行动又对外界环境产生了影响。
agent根据环境作出action,action更新环境,新的环境产生新的obseration和reward。
强化学习是:观察,奖励,行动的时间序列

3.4 History and State

  1. Ht是一个observations、actions、rewards的时间序列
    O1、R1-->A1-->O2、R2-->A2
  2. agent 是创建一个observation、reward到action映射
  3. 历史信息决定了observation、reward

State是决定下一个action,state包括了我们所需要的所有信息,这些信息决定着我们下一步action

  1. State是根据历史的一个函数。

3.5 Environment State

  1. Environment State 环境状态信息,通过observation、reward反馈给agent
  2. Environment State 可以是一个数字的集合,决定下一个agent的行动

3.6 Agent State

3.7 Information State

3.8 Fully Observable Environments

  1. 完全观测环境=agentState = 环境state

3.9 Partially Observable Environments

  1. 部分观测环境

4. Inside An RL Agent

4.1 Major Components of an RL Agent

  1. Policy:agent行动函数
  2. Value function:agent在某个状态下的好坏程度
  3. Model:感知环境变化

4.1.1 Policy

  1. agent的行动
  2. state到action的映射

4.1.2 Value function

  1. 预测未来的reward
  2. 评估状态的好坏
  3. t阶段,预测未来的奖励

4.1.3 Model

  1. 预测的作用

相关文章

  • L1-intro_RL

    Introduction to Reinforcement Learning 1. about 1.1 和其他机器...

网友评论

      本文标题:L1-intro_RL

      本文链接:https://www.haomeiwen.com/subject/mvucextx.html