美文网首页
增强学习——基础框架

增强学习——基础框架

作者: Leon_2012_Wuwei | 来源:发表于2018-04-24 21:50 被阅读0次

增强学习是机器学习的一种方法,不同于监督学习和非监督学习,加强学习试图模拟人与环境互动的方式,试图将这种在环境中互动反馈的“自然而然”的学习能力赋予机器。 

它的基本设定很简单,

设想我们要训练一个智能生物(Agent),为了让它解决相应的问题,我们将它放在一个环境中(environment),智能生物会观察外在世界,做出行动(action),而环境将对它的行动进行相应的反馈,在模型中为了简化,称之为激励(reward)。

那么智能生物它在这个环境中生存要达到的目标就是最大化它能获得的激励。

累计期望收益最高

上面讲了智能生物的目标是为了最大化它能获得的激励,但是绝大部分和外界环境之间互动过程都是连续的,或者说是伴随着多个状态变化的。 agent对于环境做出的每个行为都会导致状态的变化,并伴随着相应的激励。 所以智能生物要考虑的不是一次性的最高收益,而是累计的期望收益。

这里,和经济学一样,在考虑未来的问题上,机器人同样有着效用的考虑,今天的一块钱要比明天的一块钱效用大,因此我们引入贴现因子gamma。所以累计期望收益为

Gt = Rt+1 +γRt+2 +γ2Rt+3+……


马尔可夫决策过程

马尔可夫决策过程

马尔可夫决策过程是模拟强化学习中行为-激励关系,以及状态变化的一个很有用的工具, 上图模拟了一个扫地机器人的决策过程。 

机器人有两种状态,(即两种环境,或者说两种state){电量高,电量低}, 

机器人面对每种状态选择相应的行为,有相应的状态变化的概率,并且获得相应的收益,

 如:

 在电量高的情况下,机器人可以选择搜寻和等待, 机器人选择搜寻的话,有70%的概率会维持电量高的状态,并获得4的收益,有30%的概率变成电量低的状态,也将获得4的收益。

 而机器人在电量低的情况下,可以选择搜寻、充电和等待,而它选择搜寻的情况下, 有20%的概率会维持电量低的状态,获得4的收益, 而有80%的概率,会导致电量用尽,需要人工介入,寻回充电,收益为-5。 

这里需要介绍一个notation

这里指的的agent在状态s 的情况下采用a行为,状态变为s`,收益为r的概率,后续的贝尔曼方程要用到。 

贝尔曼方程

相关文章

  • 增强学习——基础框架

    增强学习是机器学习的一种方法,不同于监督学习和非监督学习,加强学习试图模拟人与环境互动的方式,试图将这种在环境中互...

  • 反向增强学习基础

    增强学习已经成为人工智能发展的一个重要方向,Alpha Zero的算法也再一次向世人展示了增强学习的强大之处。而它...

  • React-Native 增强基础框架

    React-Native 增强框架(MCRN) CLI 安装 使用 目录结构如下: src/config/app....

  • MyBatis-Plus 细节记录

    简单概述: 主流两大ORM框架之一Plus为MyBaits基础之上的增强,包括对基础crud的封装 批量细节 sa...

  • IOS11新特性

    新增框架 Core ML:负责简化和集成机器学习的框架 ARKit:用来创建增强现实 (AR) 应用 Vision...

  • Flutter通用基础框架设计思想

    # Flutter通用基础框架 #### Flutter基础框架设计特点 1、代码轻量级 2、快速开发、学习门槛低...

  • 更便捷的Mybatis增强插件——EasyMybatis

    easy-mybatis是一个对Mybatis的增强框架(插件)。在Spring集成Mybatis的基础上,将项目...

  • AVFoundation之视频录制基础版

    AVFoundation框架学习之视频录制基础版 AVFoundation框架简介 在系统中的位置: 框架中主要得...

  • OpenStack学习

    学习目的 熟悉OpenStack框架,作为云安全的基础 学习程度 熟悉框架,重点学习网络、认证和计算模块 初识Op...

  • 【读书笔记系列1】介绍

    本书《A Course in Machine Learning》内容极为基础,关于机器学习的基础算法,框架,和专业...

网友评论

      本文标题:增强学习——基础框架

      本文链接:https://www.haomeiwen.com/subject/nplslftx.html