美文网首页
Reinforcement Learning

Reinforcement Learning

作者: running__girl | 来源:发表于2019-01-02 20:29 被阅读0次

    创建Qtable(pandas.DataFrame(  np.zeros(n_states, len(actions)),  columns = actions)  ),这个table横轴是state第几步纵轴是动作action,通过Q值把所有的state s 和 action a 对应上,选动作的时候就根据Q值和state,以及环境变量的feedback。

    预定义global变量:n_states=6 表示在环境中出发点距离目标的baseline步数,actions=['left','right']表示有哪些可以选择的动作,ε=0.9表示greedy policy也就是随机的大于90%的情况选择价值最大的action其余10%的情况,  α=1.1表示学习率, γ=0.9表示对未来奖励的一个衰减值,episode表示最多训练多少个回合,fresh_time表示每走一步花多长时间。

    Initialize Q(s,a) arbitrarily

    Repeat (for each episode):
        Initialize s

        Repeat (for each step of an episode):
            choose a from s using policy derived from Q (e.g. ε-greedy)   
            take action a, observe r, s^\prime
            Q(s,a)\leftarrow Q(s,a)   +   α [   r    +    γ \cdot max_{a^\prime} Q(s^\prime,a^\prime)   -   Q(s,a)  ]
            s\leftarrow s^\prime

        until s is terminal

    相关文章

      网友评论

          本文标题:Reinforcement Learning

          本文链接:https://www.haomeiwen.com/subject/hyttrqtx.html