美文网首页
搭建自定义OpenAI Gym环境,设计自己的机器人

搭建自定义OpenAI Gym环境,设计自己的机器人

作者: fitsir | 来源:发表于2019-03-12 12:59 被阅读0次

    Gym是一个用于 测试和比较 强化学习算法的工具包,它不依赖强化学习算法结构,并且可以使用很多方法对它进行调用,像TensorFlow、Theano。

    Gym库收集、解决了很多环境的测试过程中的问题,能够很好地使得你的强化学习算法得到很好的工作。并且含有游戏界面,能够帮助你去写更适用的算法。

    搭建Gym仿真环境

    • 安装Anaconda3
    • 创新虚拟环境
      Anaconda创建虚拟环境的格式为:conda create –-name 你要创建的名字 python=版本号。比如我创建的虚拟环境名字为gym, 用的python版本号为3.6,可这样写:
    conda create –-name gym python=3.6
    
    • 安装MuJoCo

      1. MuJoCo(Multi-Joint dynamics with Contact)是一个物理模拟器,可以用于机器人控制优化等研究。它类似于Adams,是一个多体的仿真平台。

      2. MuJoCo官网下载对应平台的mjpro150,Windows 64位系统需要下载mjpro150 win64,同时点击Licence下载许可证,需要full name, email address, computer id 等信息,其中根据使用平台下载 getid_win64.exe(可执行文件),在命令行下执行,可获得computer id,提交这些信息能够获得30天的临时许可。

      3. C:\Users\用户名下新建.mujoco文件夹,并将mjpro150解压至该文件夹,将证书复制至C:\Users\用户名\.mujocoC:\Users\用户名\.mujoco\mjpro150\bin目录。如果为Linux/MacOS系统,该目录为~/.mujoco

    • 安装gym

    git clone https://github.com/openai/gym.git
    cd gym
    pip install -e '.[all]'
    

    测试gym环境

    import gym
    
    env = gym.make('CartPole-v0')
    env.reset()
    
    reward_sum = 0
    
    for _ in range(1000):
        env.render()
        action = env.action_space.sample()
        observation, reward, done, info = env.step(action)
        reward_sum += reward
        if done:
            print('reward_sum:', reward_sum)
            reward_sum = 0
            env.reset()
    

    测试MuJoCo环境

    import gym
    env = gym.make('InvertedPendulum-v2')
    for i_episode in range(20):
        observation = env.reset()
        for t in range(100):
            env.render()
            print(observation)
            action = env.action_space.sample()
            observation, reward, done, info = env.step(action)
            if done:
                print("Episode finished after {} timesteps".format(t+1))
                break
    
    • 安装Spinning Up
      Spinning Up 是OpenAI提供的一个深度强化学习的教学资源,旨在快速入门深度强化学习。
    git clone https://github.com/openai/spinningup.git
    cd spinningup
    pip install -e .
    
    • 安装Baselines
      OpenAI Baselines是一系列高质量强化学习算法的实现
    git clone https://github.com/openai/baselines.git
    cd baselines
    pip install -e .
    

    测试 Gym 和 Spinning Up、Baselines 环境

    • Spinning Up
    # 运行
    python -m spinup.run ppo --hid "[32,32]" --env LunarLander-v2 --exp_name installtest --gamma 0.999
    # 查看结果数据
    python -m spinup.run test_policy data/installtest/installtest_s0
    # 查看仿真动画
    python -m spinup.run plot data/installtest/installtest_s0
    
    • Baselines
    python -m baselines.run --alg=ppo2 --env=CartPole-v0 --network=mlp --num_timesteps=2e7
    

    设计自己的机器人流程

    1. myrobot.xml, 机器人模型文件,位于gym目录下envs/mujoco/assets目录下
    2. myrobot.py, 位于gym目录下envs/mujoco目录下
    3. 修改envs/mujoco/__init__.py文件,在最后增加
    from gym.envs.mujoco.myrobot import MyRobotEnv
    
    1. 修改envs/__init__.py文件,在最后增加
    register(
        id='MyRobot-v0',
        entry_point='gym.envs.mujoco.myrobot:MyRobotEnv',
    )
    
    1. 测试模型
    import gym
    env = gym.make('MyRobot-v0')
    for i_episode in range(20):
        observation = env.reset()
        for t in range(100):
            env.render()
            print(observation)
            action = env.action_space.sample()
            observation, reward, done, info = env.step(action)
            if done:
                print("Episode finished after {} timesteps".format(t+1))
                break
    

    myrobot.xml文件

    xml文件的模板为

    <mujoco model="MyRobot">
        <compiler angle="degree" coordinate="local" inertiafromgeom="true" />
        
        <option integrator="RK4" timestep="0.01" />
        
        <custom>
        </custom>
    
        <default>
        <!-- 一些默认值 -->
        </default>
        
        <asset>
        <!-- 一些变量定义 -->
        </asset>
        
        <!-- 实体模型 -->
        <worldbody>
        <!-- 光照 -->
        <light cutoff="100" diffuse="1 1 1" dir="-0 0 -1.3" directional="true" exponent="1" pos="0 0 1.3" specular=".1 .1 .1"/>
        <!-- 地板 -->
        <geom conaffinity="1" condim="3" material="MatPlane" name="floor" pos="0 0 0" rgba="0.8 0.9 0.8 1" size="40 40 40" type="plane"/>
        <body name="segway">
        </body>
        </worldbody>
        
        <actuator>
        <!-- 驱动 -->
        </actuator>
    </mujoco>
    

    worldbody是模型部分,一般有光照light、地面(一个极薄的平面)、机器人模型<body name="segway"></body>
    在body部分,并列的两个geom是固连的关系,geom所属的关节joint应与其并列,

    myrobot.py 文件

    测试

    Roboschool

    Roboschool 是基于 OpenAI Gym 强化学习仿真包的物理仿真引擎。由于 MuJoCo 不开源且收费,所以 OpenAI 的大佬们将 Roboschool 作为 MuJoCo 的替代品。可以在一个场景当中训练多个 Agent 并且完成一挑战任务。

    参考文献

    1. OpenAI Gym构建自定义强化学习环境
    2. 强化学习仿真环境gym搭建
    3. MuJoCo官网

    相关文章

      网友评论

          本文标题:搭建自定义OpenAI Gym环境,设计自己的机器人

          本文链接:https://www.haomeiwen.com/subject/myaleqtx.html