gym 环境解析：MountainCarContinuous-v

作者: 博士伦2014 | 来源:发表于2018-11-28 19:45 被阅读0次

gym 环境解析：MountainCarContinuous-v
gym 环境解析：Pendulum-v0
强化学习基础篇（十）OpenAI Gym环境汇总
用动态规划法求解强化学习问题
深度强化学习（四）：DQN的拓展和改进
gym render 不想让它显示窗口画面的方法
常用强化学习实验环境
OpenAI Gym学习（二）：OpenAI Gym 安装与使用
Gym gym
Fastlane - gym

MountainCarContinuous-v0

1. 概述

细节：动力不足的汽车必须爬上一维小山才能到达目标。与MountainCar-v0不同，动作（应用的引擎力）允许是连续值。

目标位于汽车右侧的山顶上。如果汽车到达或超出，则剧集终止。

在左侧，还有另一座山。攀登这座山丘可以用来获得潜在的能量，并朝着目标加速。在这第二座山顶上，汽车不能超过等于-1的位置，好像有一堵墙。达到此限制不会产生惩罚（可能在更具挑战性的版本中）[1].
类型：连续控制

2. 环境

2.1 Observation & state

$\begin{array}{|c|l|c|r|} \hline & \ text{Observation} & \text{Min} & \text{Max} \\ \hline 0 & Position & -1.2 & 0.6 \\ \hline 1 &Velocity& -0.07 & 0.07\\ \hline \end{array}$
请注意，速度受到限制以便于探索，但在更具挑战性的版本中可能会放宽此约束。

注意：Observation是 state的函数，二者有时相同，有时不同，在此例中，二者是一样的，在 Pendulum-v0中，Observation是state的函数。

2.2 Actions

$\begin{array}{|c|l|c|r|} \hline n & \text {Action} \\ \hline 0 & 将车推向左侧（负值）或向右侧（正值） & \\ \hline \end{array}$

2.3 Reward

奖励为到达右侧山丘目标的100，减去从开始到目标的动作平方总和。这个奖励函数提出了一个探索挑战，因为如果代理人没有尽快到达目标，它将会发现最好不要移动，并且不再找到目标。
请注意，对于大多数已发表的作品而言，这种奖励是不寻常的，其目标是尽可能快地达到目标，因此有利于爆炸战略。

更多的奖励函数形式查看这个Leaderboard

2.4 初始状态

位于-0.6和-0.4之间，无速度。

2.5 终止状态- Episode Termination

位置等于0.5（此值可能被调整）。可以在更具挑战性的版本中添加对速度的约束。
添加最大步数可能是个好主意。

2.6 Solved Requirements

获得超过90的奖励。此值可能会被调整。

3. 代码

3.1 导入lib

import math
import gym
from gym import spaces
from gym.utils import seeding
import numpy as np

3.2 定义`Continuous_MountainCarEnv`类

class Continuous_MountainCarEnv(gym.Env):
    metadata = {
        'render.modes': ['human', 'rgb_array'],
        'video.frames_per_second': 30
    }

3.2.1 定义`init(self)`函数

def __init__(self):
        self.min_action = -1.0  # 最小动作值
        self.max_action = 1.0   # 最大动作值
        self.min_position = -1.2 # 最低位置
        self.max_position = 0.6  # 最高位置
        self.max_speed = 0.07  # 最大速度
        self.goal_position = 0.45 # was 0.5 in gym, 0.45 in Arnaud de Broissia's version
        self.power = 0.0015

        self.low_state = np.array([self.min_position, -self.max_speed]) # [-1.2, -0.07]
        self.high_state = np.array([self.max_position, self.max_speed]) # [0.6, 0.07]

        self.viewer = None
        #   声明observation space和action space的上下限
        self.action_space = spaces.Box(low=self.min_action, high=self.max_action, shape=(1,)) 
        # (low = 1.0, high = 1.0)
        self.observation_space = spaces.Box(low=self.low_state, high=self.high_state)
        # (low = -1.2, high = 0.6 )
  
        self.seed()
        self.reset()

3.2.2 定义随机种子函数`seed(self, seed=None)`

    def seed(self, seed=None):
        self.np_random, seed = seeding.np_random(seed)
        return [seed]

3.2.3 定义`step(self, action)`函数

step()函数
该函数在仿真器中扮演物理引擎的角色。其输入是动作action，输出是：下一步状态，立即回报，是否终止,调试项。该函数描述了智能体与环境交互的所有信息，是环境文件中最重要的函数。在该函数中，一般利用智能体的运动学模型和动力学模型计算下一步的状态和立即回报，并判断是否达到终止状态

    def step(self, action):

  1.    position = self.state[0]
  2.    velocity = self.state[1]
        # position, velocity = self.state
  3.    force = min(max(action[0], -1.0), 1.0)

  4.    velocity += force*self.power - 0.0025 * math.cos(3*position)
  5.    if (velocity > self.max_speed): velocity = self.max_speed
  6.    if (velocity < -self.max_speed): velocity = -self.max_speed
  7.    position += velocity
  8.    if (position > self.max_position): position = self.max_position
  9.    if (position < self.min_position): position = self.min_position
  10.   if (position==self.min_position and velocity<0): velocity = 0

  11.   done = bool(position >= self.goal_position)

  12.   reward = 0
  13.   if done:
  14.       reward = 100.0
  15.   reward-= math.pow(action[0],2)*0.1

  16.   self.state = np.array([position, velocity])
  17.   return self.state, reward, done, {}

初始化位置状态
初始化速度状态
引擎力：内层的max(action[0], -1.0)确保动作值不低于下界，即 - 1.0，
外层的min(max(action[0], -1.0), 1.0)确保动作值不高于上界，即 1.0
计算速度：注意是速度累加的，这是微分的概念，把连续过程离散成很小的片段以进行近似
判断当前速度是否大于最大速度：如果是，将当前速度设定为最大速度
判断当前速度是否小于最小速度：如果是，将当前速度设定为最小速度
计算位置：
判断当前位置是否高于最高位置：如果是，将当前位置设定为最高位置
判断当前位置是否低于最低位置：如果是，将当前位置设定为最低位置
如果当前位置是最低位置且速度小于 0 ：将速度设为0
判断布尔类型的，返回True或者False
初始化 reward = 0
如果当前位置高于目标位置，
给予 agent 值为100的reward
$reward = reward - action^ 2*0.1$
这是执行动作之后得到的新的状态
step()函数返回下一时刻的观测，回报，是否终止,调试项
MountainCarContinuous-v0

11-15 这几行代码的意思是：每执行一个step，就会检查看自己是否越过了右边的山峰，据此来给done赋值，如果小车没有越过右边的山峰，即 done=False，则在这一个step, reward将会记为 $-action^2*0.1$ ，也就是这一个时间步我们耗费了多少能量，我们当然不希望耗油太多。如果小车越过右边的山峰，即 done=True，这一个step就会马上得到 $-action^2*0.1 + 100$ 的奖励。

3.2.4 定义`reset()`函数：

在强化学习算法中，智能体需要一次次地尝试，累积经验，然后从经验中学到好的动作。一次尝试我们称之为一条轨迹或一个episode. 每次尝试都要到达终止状态. 一次尝试结束后，智能体需要从头开始，这就需要智能体具有重新初始化的功能。函数reset()就是这个作用, agent与环境交互前调用该函数，确定agent的初始状态以及其他可能的一些初始化设置。此例中在每个episode开始时，position初始化为[-0.6,-0.4]之间的一个任意状态，速度初始化为0.

    def reset(self):
        self.state = np.array([self.np_random.uniform(low=-0.6, high=-0.4), 0])
        return np.array(self.state)

3.2.5 定义`_height(self, xs)`函数：

此函数用于下面的render()函数用来构建图像引擎

    def _height(self, xs):
        return np.sin(3 * xs)*.45+.55

3.2.6 定义`render(self, mode='human')`函数

render()函数是图像引擎,就是人机交互界面，进行动画演示，一个仿真环境必不可少的两部分是物理引擎和图像引擎。物理引擎模拟环境中物体的运动规律；图像引擎用来显示环境中的物体图像。

    def render(self, mode='human'):
        screen_width = 600
        screen_height = 400

        world_width = self.max_position - self.min_position
        scale = screen_width/world_width
        carwidth=40
        carheight=20


        if self.viewer is None:
            from gym.envs.classic_control import rendering
            self.viewer = rendering.Viewer(screen_width, screen_height)
            xs = np.linspace(self.min_position, self.max_position, 100)
            ys = self._height(xs)
            xys = list(zip((xs-self.min_position)*scale, ys*scale))

            self.track = rendering.make_polyline(xys)
            self.track.set_linewidth(4)
            self.viewer.add_geom(self.track)

            clearance = 10

            l,r,t,b = -carwidth/2, carwidth/2, carheight, 0
            car = rendering.FilledPolygon([(l,b), (l,t), (r,t), (r,b)])
            car.add_attr(rendering.Transform(translation=(0, clearance)))
            self.cartrans = rendering.Transform()
            car.add_attr(self.cartrans)
            self.viewer.add_geom(car)
            frontwheel = rendering.make_circle(carheight/2.5)
            frontwheel.set_color(.5, .5, .5)
            frontwheel.add_attr(rendering.Transform(translation=(carwidth/4,clearance)))
            frontwheel.add_attr(self.cartrans)
            self.viewer.add_geom(frontwheel)
            backwheel = rendering.make_circle(carheight/2.5)
            backwheel.add_attr(rendering.Transform(translation=(-carwidth/4,clearance)))
            backwheel.add_attr(self.cartrans)
            backwheel.set_color(.5, .5, .5)
            self.viewer.add_geom(backwheel)
            flagx = (self.goal_position-self.min_position)*scale
            flagy1 = self._height(self.goal_position)*scale
            flagy2 = flagy1 + 50
            flagpole = rendering.Line((flagx, flagy1), (flagx, flagy2))
            self.viewer.add_geom(flagpole)
            flag = rendering.FilledPolygon([(flagx, flagy2), (flagx, flagy2-10), 
            (flagx+25, flagy2-5)])
            flag.set_color(.8,.8,0)
            self.viewer.add_geom(flag)

        pos = self.state[0]
        self.cartrans.set_translation((pos-self.min_position)*scale, self._height(pos)*scale)
        self.cartrans.set_rotation(math.cos(3 * pos))

        return self.viewer.render(return_rgb_array = mode=='rgb_array')

强化学习算法可以不用图像引擎，这里我们不做解释了。

3.2.7 定义`close(self)`函数

    def close(self):
        if self.viewer:
            self.viewer.close()
            self.viewer = None

参考：

gym 环境解析：MountainCarContinuous-v
1. 概述细节：动力不足的汽车必须爬上一维小山才能到达目标。与MountainCar-v0不同，动作（应用的引...
gym 环境解析：Pendulum-v0
1. 概述倒立摆问题是控制文献中的经典问题。在这个版本的问题中，钟摆以随机位置开始，目标是将其向上摆动，使其保...
强化学习基础篇（十）OpenAI Gym环境汇总
强化学习基础篇（十）OpenAI Gym环境汇总 Gym中从简单到复杂，包含了许多经典的仿真环境，主要包含了经典控...
用动态规划法求解强化学习问题
强化学习环境：gym'CartPole-v1'
深度强化学习（四）：DQN的拓展和改进
一、预备工具 1.1、Gym Gym是OpenAI开发的通用强化学习算法测试平台，集成了众多仿真实验环境，开发者可...
gym render 不想让它显示窗口画面的方法
有时候在训练的时候不想让gym绘制窗口，只需要在定义gym 自定义的环境 render 方法下的viewer处设置...
常用强化学习实验环境
1.常用强化学习实验环境 I (MuJoCo, OpenAI Gym, rllab, DeepMind Lab, ...
OpenAI Gym学习（二）：OpenAI Gym 安装与使用
1. OpenAI Gym安装安装本人环境是Ubuntu16.04 + anaconda + Python3....
Gym gym
自从加入新的健身房之后，坚持一周三次上不同的力量训练和举铁高强度课，还尝试了拳击课和打击棍子的pound；四个星期...
Fastlane - gym
认识Xcodebuild命令 gym概述：使用方法： fastlane gym fastlane gym --w...