创建table(pandas.DataFrame( np.zeros(n_states, len(actions)), columns = actions) ),这个table横轴是state第几步纵轴是动作action,通过值把所有的state 和 action 对应上,选动作的时候就根据值和state,以及环境变量的feedback。
预定义global变量:n_states=6 表示在环境中出发点距离目标的baseline步数,actions=['left','right']表示有哪些可以选择的动作,表示greedy policy也就是随机的大于90%的情况选择价值最大的action其余10%的情况, 表示学习率,表示对未来奖励的一个衰减值,episode表示最多训练多少个回合,fresh_time表示每走一步花多长时间。
Initialize arbitrarily
Repeat (for each episode):
Initialize
Repeat (for each step of an episode):
choose from using policy derived from (e.g. ε-greedy)
take action , observe
until is terminal
网友评论