David Silver深度强化学习-1-学习笔记

David Silver深度强化学习-1-学习笔记

作者: 小白之白小明 | 来源:发表于2017-11-24 22:09 被阅读134次

David Silver深度强化学习-1-学习笔记
David Silver Lecture 4 (1)（Model
强化学习基础篇（一）强化学习入门
David Silver深度强化学习第1课
强化学习总体介绍-初步搭建强化学习理论体系(一)
RLDM 强化学习教程-David Silver
深度 | David Silver全面解读深度强化学习：从基础概
基于Python的深度学习
强化学习在聊天机器人中的应用
强化学习+关系抽取论文阅读

刚开始学习强化学习，有些地方也不是很明白，但是基本都记了下来，这是第一课的学习笔记，放上来与大家分享，如果有错误希望大家指出。

原创 -- 小萌至上

1. 增强学习的本质：理解最佳的方式来制定决策

不同于监督学习或无监督学习，不存在监督者，但是有奖励信号，根据奖励信号知道什么是对，哪样做更好，哪样做加2分，哪样做加5分，这个奖励就是“标量反馈信号”
类似于小孩试错的过程
当得到反馈，这个结果不是立刻得到，而是存在时间延迟，这是增强学习的特点
很久以后，回顾之前的决策，在当时看起来是对的，甚至当时还有正面的奖励，但经历几个过程之后，当时看起来正面的决定现在看起来是大错特错的
传统的机器学习是将独立分布的数据给机器，让机器自己去学习。强化学习里面 agent（代理）需要和外部环境进行交互，agent 会根据环境变化，采取措施来应对环境的变化。每一步都会影响下一步举措，所以不适合采用独立的范式。

2. 强化学习框架

试用于所有问题，有一个统一的目标
注：需要提前计划，考虑未来

3. Markov 链

下一时刻的 state，仅由当前的 state 决定，与之前的 state 无关
例：直升机要决定下一步飞行的速度和方向，只取决于当前的位置、风向等，与之前所走得了路线和速度无关。

4. agent 的三个重要参数

policy：表示能够采取的行动，是一个行为函数。该函数以agent 的状态作为输入，以下一步的行动决策作为输出。
value：评价 agent 在采取某种行动之后的好坏，即预期奖励。
model：用来感知环境是如何变化的。
举个例子：一个迷宫，需要从入口走到出口，agent表示人物，policy 表示每个格子下一步可以走的方向，agent 表示走到这一步会加或减多少分。

5. 接下来以一张图来解释循环神经网络

疑问：若有两个或多个目标，增强学习算法怎样确定选择哪一个？
答：每一个选项，根据一些衡量标准，可以进行比较。把比较结果转换成标量反馈信号，然后就可以比较了。

6. history：选项序列→观察→采取行动→获得奖励

state：状态、总结，每经历一个步长，就构建一个 state，是 history 的函数

7. 探索与开发之间的平衡

exploration（探索）：发现更多关于环境的信息，即未知的信息
expectation（开发）：开发利用你所找到的信息，即已知的信息
agent 需要平衡这两者，进而最大化奖励。
举例：去饭店吃饭，exploration 表示去一家新开的饭店，expectation 表示去曾经去过最喜欢的一家。
prediction 控制：遵循现在的 policy，在未来会变得怎么样。
control 预测：最有的 policy 该怎么做才能得到最多的 reward。

相关文章

David Silver深度强化学习-1-学习笔记
刚开始学习强化学习，有些地方也不是很明白，但是基本都记了下来，这是第一课的学习笔记，放上来与大家分享，如果有错误希...
David Silver Lecture 4 (1)（Model
1. 前言：这些博客是根据david silver 的深度强化学习内容，结合自己的理解以及学习而写成，转载请注...
强化学习基础篇（一）强化学习入门
强化学习基础篇（一）强化学习入门本文主要基于David Silver的强化学习基础课程进行总结回归梳理强化学习的...
David Silver深度强化学习第1课
强化学习本质上是要找到一种最优的方式来做决策。强化学习涉及到很多学科领域，例如它是计算机科学中机器学习的一部分，...
强化学习总体介绍-初步搭建强化学习理论体系(一)
前言两年前接触强化学习是通过莫烦的课程,那时候对强化学习整体有一个基础的认识,最近听了David Silver的...
RLDM 强化学习教程-David Silver
Neil Zhu，简书ID Not_GOD，University AI 创始人 & Chief Scientist...
深度 | David Silver全面解读深度强化学习：从基础概
2017-03-25 机器之心原创作者：Duke Lee 参与：马亚雄、吴攀、吴沁桐、Arac Wu 强化学习在...
基于Python的深度学习
姓名：刘哲宁【嵌牛导读】：深度强化学习【嵌牛鼻子】：深度卷积网络，深度学习，强化学习【嵌牛提问】：深度学习和...
强化学习在聊天机器人中的应用
1.深度强化学习在面向任务的对话管理中的应用 2.李纪为：用于对话生成的深度强化学习 3.基于深度强化学习打造聊天...
强化学习+关系抽取论文阅读
2019 层次强化学习做关系抽取 ---12018 强化学习做关系抽取 ---22018 深度强化学习做关系抽...

网友评论

本文标题：David Silver深度强化学习-1-学习笔记

本文链接：https://www.haomeiwen.com/subject/vbptbxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|David Silver深度强化学习-1-学习笔记|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！