美文网首页
【CoRL 2018】通过元策略优化的MBRL算法

【CoRL 2018】通过元策略优化的MBRL算法

作者: 小小何先生 | 来源:发表于2020-04-15 18:53 被阅读0次
  • 论文题目:Model-Based Reinforcement Learning via Meta-Policy Optimization
作者及标题信息截图

所解决的问题?

  提出一种不依赖于learned dynamic model精度的学习算法Model-Based Meta-Policy-Optimization (MB-MPO),。同样是使用emsemble的方法集成learned model,然后用meta-train的方法学一个policy,使得其能够对任意一个model都具有较好的学习效果。最终使得算法的鲁棒性更强。

背景

  之前的大多数model-based方法都集中在trajectory sample和dynamic model train这两个步骤。如用贝叶神经网络的这些方法。贝叶斯的方法一般用于低维空间,神经网络虽然具备用于高维空间的潜力,但是很大程度会依赖模型预测的精度才能取得较好效果。

  也有前人工作是解决model学习不准确的问题,与本文最相似的就是EM-TRPO算法,而本文采用的是元学习算法,指在模型不精确的情况下加强其鲁棒性。

所采用的方法?

Model Learning

  在学习model的时候,作者学习的是状态的改变量。用的是one-step预测:

\min _{\boldsymbol{\phi}_{k}} \frac{1}{\left|\mathcal{D}_{k}\right|} \sum_{\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}, \boldsymbol{s}_{t+1}\right) \in \mathcal{D}_{k}}\left\|\boldsymbol{s}_{t+1}-\hat{f}_{\boldsymbol{\phi}_{k}}\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right)\right\|_{2}^{2}

  为了防止过拟合,作者采用以下三点:

  1. early stopping the training based on the validation loss;
  2. normalizing the inputs and outputs of the neural network;
  3. weight normalization
  • T.Salimans and D.P.Kingma. Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks. In NIPS, 2 2016.

Meta-Reinforcement Learningon Learned Models

  Each task constitutes a different belief about what the dynamics in the true environment could be. 优化目标为:

\max _{\boldsymbol{\theta}} \frac{1}{K} \sum_{k=0}^{K} J_{k}\left(\boldsymbol{\theta}_{k}^{\prime}\right) \quad \text { s.t.: } \quad \boldsymbol{\theta}_{k}^{\prime}=\boldsymbol{\theta}+\alpha \nabla_{\boldsymbol{\theta}} J_{k}(\boldsymbol{\theta})

  其中J_{k}(\boldsymbol{\theta})表示是在策略\pi_{\boldsymbol{\theta}}和估计的动态模型\hat{f}_{\boldsymbol{\phi}_{k}}\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right)下的期望回报。

J_{k}(\boldsymbol{\theta})=\mathbb{E}_{\boldsymbol{a}_{t} \sim \pi_{\boldsymbol{\theta}}\left(\boldsymbol{a}_{t} | \boldsymbol{s}_{t}\right)}\left[\sum_{t=0}^{H-1} r\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right) | \boldsymbol{s}_{t+1}=\hat{f}_{\boldsymbol{\phi}_{k}}\left(\boldsymbol{s}_{t}, \boldsymbol{a}_{t}\right)\right]

MB-MPO

  这里是直接学习如何调整\theta,而不是从学好的模型的数据中学习policy,这也是与ME-TRPO的区别。

取得的效果?

  与model-free算法对比:

与Model-Free算法对比

  与model-based算法对比:

与Model-Based方法对比

  作者还做了一些实验与MR-TRPO算法对比,感兴趣可以参考原文。

所出版信息?作者信息?

  Ignasi Clavera 加州大学伯克利分校 CS的三年级博士生,导师伯克利人工智能研究(BAIR)实验室的Pieter Abbeel。研究方向是机器学习与控制的交集,旨在使机器人系统能够学习如何有效地执行复杂的任务。

Ignasi Clavera

参考链接

微信公众号

我的微信公众号名称:深度学习与先进智能决策
微信公众号ID:MultiAgent1024
公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!

相关文章

  • 【CoRL 2018】通过元策略优化的MBRL算法

    论文题目:Model-Based Reinforcement Learning via Meta-Policy O...

  • 常见的几种黑帽SEO作弊手法

    做SEO优化,其实是针对搜索引擎算法,通过相关策略,获得搜索引擎对网页的爬行、抓取、索引、收录。SEO优化主要有白...

  • 元学习与终身学习

    元学习有点类似于AI进化算法。大自然的生物通过一代代的进化来优化物种,基于这种思路的AI算法曾经广泛应用在优化领域...

  • 爬山算法

    爬山算法(Hill Climbing)是一种最简单的优化算法(优化算法就是找最大或者最小值),这种算法是通过模拟人...

  • 最大子数组问题的几种解法

    分治算法 最近看到《算法导论》的分治策略一节,看到的一个题目可以优化引申出来多种解法,同时也可以帮助理解分治策略的...

  • (二)微信红包架构、抢红包算法和高并发和降级方案(2)

    异地架构、cache系统优化、拆红包并发策略优化(高并发+红包算法)、存储优化一系列措施 一、架构(南北分布) 1...

  • 算法交易策略的五个常见的算法策略

    算法交易策略 从字面上看,有成千上万种潜在的算法交易策略,以下是几种最常见的快速入门策略: 趋势跟随算法:通过确定...

  • 探探

    高级算法工程师(推荐/广告方向) 岗位职责: 1、负责探探的推荐算法的策略优化及算法研究; 2、建立、完善反作弊系...

  • 面试

    1.React探索-diff算法 tree diff 基于策略一,React 对树的算法进行了简洁明了的优化,即对...

  • 优化算法的实现

    前言 在优化算法的学习中,已经详细了解了各种优化算法的数学原理和相关公式,现在,可以通过python实现这些优化算...

网友评论

      本文标题:【CoRL 2018】通过元策略优化的MBRL算法

      本文链接:https://www.haomeiwen.com/subject/nfrhvhtx.html