美文网首页
强化学习:gym库的二次开发学习

强化学习:gym库的二次开发学习

作者: 小新学算法 | 来源:发表于2019-10-31 21:57 被阅读0次

    gym包含的主要文件

    envs: 所有环境都保存在这个文件下
    spaces :环境所定义的状态、动作空间
    utils: 环境中使用的一组常用实用程序
    warppers :包装,用于对已有的环境进行改变或者扩展
    init :读取时初始化
    core: 核心环境,直接链接到给定的环境
    gym创建的环境主要在envs中,在这个里面可以找到常用的几个环境,比如:cart-pole, MountainCar等等。自我构建的gym环境都应该在放在envs下子文件夹中的一个py文件中的类,例如:gym\envs\classic_control\cartpole.py。

    gym registry

    所有构建的环境都需要调用gym库,然后再通过gym库来调用所写的环境。所以需要现在gym的内部构件一个内链接,指向自己构建的环境。

    envs下 init 文件下

    register(
        id='CartPole-v1',
        entry_point='gym.envs.classic_control:CartPoleEnv',
        max_episode_steps=500,
        reward_threshold=475.0,
     )
    

    id :调用所构建的环境的名称,调用该环境的时所起的名字
    entry_point: 所在的位置

    在所在文件夹下建立 init 文件,在下面调用

    from gym.envs.classic_control.cartpole import CartPoleEnv
    

    其中是cartpole是环境所存在的文件名字,CartPoleEnv是该文件下的类。

    gym构建环境

    自我定义的环境为一个类,继承于gym.env

    必须的变量

    这个类包含如下两个变量值:state 和 action
    对应的两个空间为observation _space 和 action _space
    这两个空间必须要用 space 文件夹下的类在init中进行定义。
    其中 state是一个 object 一般为一个np.array 包含多个状态指示值。

    必须的函数

    step : 利用输入动作给出下一步的环境和奖励(核心)
    reset :重置环境,将状态设置为初始状态,返回状态值

    状态、动作空间的构建

    连续空间主要由spaces.Box定义
    self.action_space = spaces.Box(low=-10, high=10, shape=(1,2))
    
    定义了一个变量空间范围为[0,2) 之间的整数
    self.observation_space = spaces.Discrete(2)
    
    定义了一个变量空间为0,1的2维整数变量
    self.observation_space = spaces.MultiBinary(2)
    
    self.observation_space = MultiDiscrete()
    

    学习环境开发案例

    https://blog.csdn.net/extremebingo/article/details/80867486
    https://www.toutiao.com/a6634078876299428355/

    相关文章

      网友评论

          本文标题:强化学习:gym库的二次开发学习

          本文链接:https://www.haomeiwen.com/subject/egvssctx.html