美文网首页
强化学习 11: Evolution Strategies

强化学习 11: Evolution Strategies

作者: 不会停的蜗牛 | 来源:发表于2018-12-01 23:25 被阅读134次

    为什么要用 Evolution Strategies?

    我们知道神经网络很强大,如果我们能够找到一组合适的模型参数,我们就可以使用神经网络来解决许多具有挑战性的问题。

    深度学习的成功主要来自于它可以使用反向传播算法有效地计算目标函数对每个模型参数上梯度。通过这些梯度,我们可以有效地搜索参数空间,找到一个不错的模型来解决问题。

    然而,有很多问题不能使用反向传播算法,

    例如在强化学习(RL)中,虽然也可以训练神经网络来做出决策,通过执行一系列 action 来完成环境中的某些任务。
    但是却不能有效估计当前时刻的 agent 在未来将获得的 reward 的梯度,
    尤其是这个奖励要在未来好多个时间步之后才能实现的时候。
    即使我们能够计算出准确的梯度,也存在陷入局部最优的问题,而且陷入局部最优在 RL 中非常常见。


    什么是 Evolution Strategies?

    OpenAI 发表了一篇论文:Evolution Strategies as a Scalable Alternative to Reinforcement Learning
    Evolution Strategies 的数据效率虽然没有 RL 高,但却有许多好处。

    • 因为放弃了梯度计算,所以算法评估起来更有效。
    • 而且可以很容易地将 ES 算法的计算分配给数千台计算机进行并行计算。
    • 并且通过 ES 算法发现的 policy 要比 RL 发现的更多样化。
    Rastrigin_function

    从图中可以看出这个 Rastrigin 函数有很多局部最优点,
    我们可以只取其中的一部分进行讨论说明,
    如图所示,分别是 2D Schaffer 和 Rastrigin 函数的 top-down 视图,

    schaffer rastrigin

    我们的目标是找到一组模型参数(x,y),使 F(x,y)尽可能接近全局最大值。

    evolution strategy 是一个可以为用户评估问题提供一组候选解决方案的算法。

    • 它基于一个目标函数的,输入一个给定的 solution,返回一个适应值 fitness value,
    • 基于当前解决方案的适应值,该算法将产生下一代候选解决方案,产生比当前解决方案更好的结果。
    • 当用户对解决方案满意时,迭代过程停止。
    • 而且我们可以从 ES 获得任意数量的解决方案,因为它是从一个概率分布中采样的, ES 会在每一代更新这个分布的参数。
    solver = EvolutionStrategy()
    
    while True:
    
      # 让 ES 算法提供一个候选集 solutions
      solutions = solver.ask()
    
      # 建立一个 array 来存 fitness results.
      fitness_list = np.zeros(solver.popsize)
    
      # 评估每个方案的 fitness 
      for i in range(solver.popsize):
        fitness_list[i] = evaluate(solutions[i])
    
      # 将 fitness 结果再次给 ES
      solver.tell(fitness_list)
    
      # 从 ES 得到最好的 parameter, fitness 
      best_solution, best_fitness = solver.result()
    
      if best_fitness > MY_REQUIRED_FITNESS:
        break
    

    最简单的 Evolution Strategy

    最简单的 Evolution Strategy 就是从一个正态分布中采样一个 solution 集合,
    平均值为 μ 标准偏差 σ.
    开始时 μ 设定一个初始值,然后经过 fitness 的迭代,将 μ 设定为最好的那个,再在这个新的平均值周围采样生成下一代 solution。

    schaffer rastrigin

    如图所示,
    这个绿色点表示的是每一代的概率分布的平均值,
    蓝色点是采样的 solution,
    红色点是目前为止由算法产生的最好的 solution。

    不过这只是个最简单版本,通常只适用于简单的问题。
    它的性质是 greedy,它只保留最佳解决方案,抛弃了此外的所有解决方案,
    这个算法在更复杂的问题中很容易陷入局部最优。


    学习资料:
    http://blog.otoro.net/2017/10/29/visual-evolution-strategies/
    Practical Reinforcement Learning

    推荐阅读 历史技术博文链接汇总

    http://www.jianshu.com/p/28f02bb59fe5

    也许可以找到你想要的:

    [入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]


    Hello World !

    This is 不会停的蜗牛 Alice !

    🐌 要开始连载强化学习系列啦!

    今天开始我们一起来每天 2 分钟,get 强化学习的一个小知识吧!

    相关文章

      网友评论

          本文标题:强化学习 11: Evolution Strategies

          本文链接:https://www.haomeiwen.com/subject/lzfrcqtx.html