美文网首页
【强化学习】基础知识

【强化学习】基础知识

作者: Pytorch小生 | 来源:发表于2018-10-22 23:40 被阅读0次

强化学习基础

基本元素:

  • Agent/Actor(智能体):
    可以采取Action的智能个体
    目标:最大化Reward的期望
  • State(状态)
    Agent所处的具体即时状态
  • Action(行动)
    Agent可以采取的行动的集
  • Reward(奖励)
    是衡量智能体行动成败的反馈,由Environment给出
  • Environment(环境)
    将Agent当前state下的action作为输入,输出是reward和下一步的state(类似于神经网络中映射函数的作用)
  • Policy(策略)
    基于当前状态作出下一步行动所用的策略
  • Value(价值)
    期望的长期收益

强化学习过程描述:
Actor通过过去一系列的positive reward和negative reward来学习可以使reward最大化的一系列action

特点

  • Actor与Environment的互动会影响学习的成果:试错学习(trail-and-error)
  • Reward delay(延迟回报)
    RL往往是在最后一个状态才给出整体的Reward,这就导致了一个问题:获得正回报或负回报以后,如何将回报分配给前面的状态。

类型

Model-free and Model-based
Model指的是环境的动态模拟,即模型学习从当前状态和动作到下一个状态的转移概率。Model-free算法依赖试错来更新知识。因此不需要空间来存储所有状态和动作的组合

Model-free

经典算法
Policy-based(PPO)
Value-based(Q-learning)
Actor+Critic(A3C)

Policy-based:

过程:
- 1.定义一系列函数,可以用神经网络作为一个Actor。
- 2.评价函数的效果(goodness)(公式)对所有动作的奖励总和求平均,利用梯度上升策略,目标是最大化reward
- 3. 选取最好的函数。

Value-based:

To Do

相关文章

  • 强化学习dqn系列梳理--从入门到进坑

    标签:强化学习 深度学习 机器学习 Deep Qlearning DQN 人工智能 一、基础知识 强化学习可以划分...

  • 【强化学习】基础知识

    强化学习基础 基本元素: Agent/Actor(智能体):可以采取Action的智能个体目标:最大化Reward...

  • 2016-05-17:资料+基础

    python基础知识 面试算法 Pandas 教程 Topic Model 教材 深度强化学习 1. 最长回文子串...

  • K514-学历-复习节奏-写作

    写作 基础 第一阶段·精讲阶段 学习基础知识,掌握基本答题技巧 第二阶段·强化阶段 强化巩固理论知识 梳理答题思路...

  • 沈阳艺考生文化课辅导

    强化基础知识 艺术类考生已经错过了复习旧知识、学习新知识、巩固强化、全面复习四个过程。针对各学科的特点,进行综合性...

  • 强化学习基础知识详解

    强化学习(Reinforcement Learning) 强化学习基本概念 强化学习四要素:状态(state)、动...

  • Java基础知识强化学习

    约定 类名: 对于所有的类来说,类名的首字母应该大写。如果类名由若干单词组成,那么每个单词的首字母应该大写,例如 ...

  • 强化学习笔记(1)--概述

    目录: 强化学习问题 强化学习的组成 智能体的组成 强化学习分类 强化学习一些重要概念 1. 强化学习问题 面向智...

  • 基础

    什么是强化学习? 强化学习是机器学习的一个分支。 机器学习分为监督学习,无监督学习,强化学习。 强化学习简单来说,...

  • 强化学习基础篇(一)强化学习入门

    强化学习基础篇(一)强化学习入门 本文主要基于David Silver的强化学习基础课程进行总结回归梳理强化学习的...

网友评论

      本文标题:【强化学习】基础知识

      本文链接:https://www.haomeiwen.com/subject/jwonzftx.html