美文网首页深度学习
强化学习随笔

强化学习随笔

作者: zidea | 来源:发表于2020-10-06 20:13 被阅读0次
alpha_go.jpg

甜点

虽然早已经过了学习围棋的年龄,大学时候学校举办过各个系围棋联赛。随着参加工作,围棋渐渐被遗忘了。直到 AlphaGo 出现再次引起我对围棋的关注,不过这一次更多眼光放在 AlphaGo 上。

  • 90 年代机器学习看成统计学习,看成统计学习的应用
  • 05 深度学习,强化学习作为深度学习分支
  • 12 年
  • 今天强化学习还是处于阶段

介绍围棋

围棋盛行于亚洲,近些年围棋顶级高手都基本出于中日韩三国。

  • 无气自提
  • 禁止全局同行
  • 地大则胜

博弈论

围棋是有必胜策略,任何 N 步,我们看看博弈论中是如何解释这个问题。任意有限步结束的 0 和博弈有必胜策略。用数学归纳法,假设棋盘只有一个格子,一个人放到这个格子就胜利,我会选择先走,如何放上算失败,那就让对方先走,我就胜利。假设对 N 步成立,要证明 (N+1) 步,游戏(N+1)格子,N+1 步的游戏可以拆成 N+1 个 N 步的游戏,所有 N + 1 步游戏都有必胜策略,全部是先走获胜,会让对手获胜,假设有一个后走人获胜,我选择先走。

强化学习应用

  • 无人机


    auto.jpeg
  • 机器手臂


    tesla_factory.jpg
  • DiDi 派单


    didi_brain.jpg
  • 无人驾驶

  • 金融交易

  • 游戏和棋牌

  • 自然语言处理(多轮对话)
    <img src="./images/chatbot.jpg">

  • 推荐系统,例如通过将推送商品和内容资源,用户点击就是 reward

机器学习分类

  • 无监督: 被动

  • 有监督/半监督

  • 强化学习(独立一支):


    rl_002.png
  • 交互过程,智能体(agent)和环境(environment)

  • 环境会给 agent 一个状态(state) ,也可以说 agent 观测(observe)到环境一个状态

  • 环境根据状态(state) 还会给智能体(agent)一个奖励(reward)

  • 智能体可以通过动作(Action)来反馈给环境

基本思路将无监督问题变为有监督问题,方法是通过交互方式来获得交互信息,通过交互信息来产生一种状态。agent 通过环境进行交互,收到状态和奖赏,然后采取动作给反馈。

通过交互产生策略(policy),
奖赏可以用于定义损失函数

  • 探索(Exploration)和利用(Exploitation)对环境知道是有限,利用已有信息,还是根据已有信息来探索未来。

  • 在强化学习是将训练和测试是混在一起

  • planning 动态规划

  • model 如果状态有限可以通过查表方式,如果模型虽然已知,但是空间非常大,就可以动态近似规划

  • 对于环境模型未知的,蒙特卡洛方法

  • 强化学习是序列估计

多学科

强化学习并不是孤立,是与学多学科有关系

  • 控制论,考虑状态连续,所以通过微分方差,机器人问题
  • 运筹学: 马尔可夫决策过程,关注投资和交易
  • 深度学习

相关文章

  • 强化学习随笔

    甜点 虽然早已经过了学习围棋的年龄,大学时候学校举办过各个系围棋联赛。随着参加工作,围棋渐渐被遗忘了。直到 Alp...

  • 强化学习随笔(3)

    时刻只与 时刻有关,在这个时刻,在和前面之间 下一个时刻状态只有与这一个时刻状态和行为有关 马尔可夫决策过程 马...

  • 强化学习随笔(2)

    状态 行为 奖励 状态到动作 状态、动作到奖励关系 动作到状态 都是随机变量 目标函数 通过调整参数更新参数,让模...

  • 强化学习笔记(1)--概述

    目录: 强化学习问题 强化学习的组成 智能体的组成 强化学习分类 强化学习一些重要概念 1. 强化学习问题 面向智...

  • 基础

    什么是强化学习? 强化学习是机器学习的一个分支。 机器学习分为监督学习,无监督学习,强化学习。 强化学习简单来说,...

  • 强化学习基础知识详解

    强化学习(Reinforcement Learning) 强化学习基本概念 强化学习四要素:状态(state)、动...

  • 强化学习基础篇(一)强化学习入门

    强化学习基础篇(一)强化学习入门 本文主要基于David Silver的强化学习基础课程进行总结回归梳理强化学习的...

  • 强化学习+关系抽取论文阅读

    2019 层次强化学习做关系抽取 ---12018 强化学习做关系抽取 ---22018 深度强化学习做关系抽...

  • 单步强化学习在糖豆推荐系统的应用

    1.强化学习基础 1.1 强化学习概念 强化学习通常用马尔科夫决策过程(Markov Desicision Pro...

  • 强化学习读书笔记 - 01 - 强化学习的问题

    请看原文强化学习读书笔记 - 01 - 强化学习的问题

网友评论

    本文标题:强化学习随笔

    本文链接:https://www.haomeiwen.com/subject/qdztpktx.html