强化学习随笔

强化学习随笔

作者: zidea | 来源:发表于2020-10-06 20:13 被阅读0次

强化学习随笔
强化学习随笔(3)
强化学习随笔(2)
强化学习笔记（1）--概述
基础
强化学习基础知识详解
强化学习基础篇（一）强化学习入门
强化学习+关系抽取论文阅读
单步强化学习在糖豆推荐系统的应用
强化学习读书笔记 - 01 - 强化学习的问题

alpha_go.jpg

甜点

虽然早已经过了学习围棋的年龄，大学时候学校举办过各个系围棋联赛。随着参加工作，围棋渐渐被遗忘了。直到 AlphaGo 出现再次引起我对围棋的关注，不过这一次更多眼光放在 AlphaGo 上。

90 年代机器学习看成统计学习，看成统计学习的应用
05 深度学习，强化学习作为深度学习分支
12 年
今天强化学习还是处于阶段

介绍围棋

围棋盛行于亚洲，近些年围棋顶级高手都基本出于中日韩三国。

无气自提
禁止全局同行
地大则胜

博弈论

围棋是有必胜策略，任何 N 步，我们看看博弈论中是如何解释这个问题。任意有限步结束的 0 和博弈有必胜策略。用数学归纳法，假设棋盘只有一个格子，一个人放到这个格子就胜利，我会选择先走，如何放上算失败，那就让对方先走，我就胜利。假设对 N 步成立，要证明 (N+1) 步，游戏(N+1)格子，N+1 步的游戏可以拆成 N+1 个 N 步的游戏，所有 N + 1 步游戏都有必胜策略，全部是先走获胜，会让对手获胜，假设有一个后走人获胜，我选择先走。

强化学习应用

无人机

auto.jpeg
机器手臂

tesla_factory.jpg
DiDi 派单

didi_brain.jpg
无人驾驶
金融交易
游戏和棋牌
自然语言处理(多轮对话)
<img src="./images/chatbot.jpg">
推荐系统，例如通过将推送商品和内容资源，用户点击就是 reward

机器学习分类

无监督: 被动
有监督/半监督
强化学习(独立一支):

rl_002.png
交互过程，智能体(agent)和环境(environment)
环境会给 agent 一个状态(state) ,也可以说 agent 观测(observe)到环境一个状态
环境根据状态(state) 还会给智能体(agent)一个奖励(reward)
智能体可以通过动作(Action)来反馈给环境

基本思路将无监督问题变为有监督问题，方法是通过交互方式来获得交互信息，通过交互信息来产生一种状态。agent 通过环境进行交互，收到状态和奖赏，然后采取动作给反馈。

通过交互产生策略(policy)，
奖赏可以用于定义损失函数

探索(Exploration)和利用(Exploitation)对环境知道是有限，利用已有信息，还是根据已有信息来探索未来。
在强化学习是将训练和测试是混在一起
planning 动态规划
model 如果状态有限可以通过查表方式，如果模型虽然已知，但是空间非常大，就可以动态近似规划
对于环境模型未知的，蒙特卡洛方法
强化学习是序列估计

多学科

强化学习并不是孤立，是与学多学科有关系

控制论，考虑状态连续，所以通过微分方差，机器人问题
运筹学: 马尔可夫决策过程，关注投资和交易
深度学习

相关文章

强化学习随笔
甜点虽然早已经过了学习围棋的年龄，大学时候学校举办过各个系围棋联赛。随着参加工作，围棋渐渐被遗忘了。直到 Alp...
强化学习随笔(3)
时刻只与时刻有关，在这个时刻，在和前面之间下一个时刻状态只有与这一个时刻状态和行为有关马尔可夫决策过程马...
强化学习随笔(2)
状态行为奖励状态到动作状态、动作到奖励关系动作到状态都是随机变量目标函数通过调整参数更新参数，让模...
强化学习笔记（1）--概述
目录：强化学习问题强化学习的组成智能体的组成强化学习分类强化学习一些重要概念 1. 强化学习问题面向智...
基础
什么是强化学习？强化学习是机器学习的一个分支。机器学习分为监督学习，无监督学习，强化学习。强化学习简单来说，...
强化学习基础知识详解
强化学习（Reinforcement Learning）强化学习基本概念强化学习四要素：状态(state)、动...
强化学习基础篇（一）强化学习入门
强化学习基础篇（一）强化学习入门本文主要基于David Silver的强化学习基础课程进行总结回归梳理强化学习的...
强化学习+关系抽取论文阅读
2019 层次强化学习做关系抽取 ---12018 强化学习做关系抽取 ---22018 深度强化学习做关系抽...
单步强化学习在糖豆推荐系统的应用
1.强化学习基础 1.1 强化学习概念强化学习通常用马尔科夫决策过程(Markov Desicision Pro...
强化学习读书笔记 - 01 - 强化学习的问题
请看原文强化学习读书笔记 - 01 - 强化学习的问题

网友评论

深度学习

本文标题：强化学习随笔

本文链接：https://www.haomeiwen.com/subject/qdztpktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

深度学习

关于我们|服务条款|联系我们|强化学习随笔|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！