强化学习 11: Evolution Strategies

作者: 不会停的蜗牛 | 来源:发表于2018-12-01 23:25 被阅读134次

强化学习 11: Evolution Strategies
OpenAI的ES算法以及变体
🇬🇧3#【英语学习】【Study English】3 strat
【每周一段】如何写解决方案
Evolution and revolution
复杂性思维中文第二版十一、进化
读伍尔福克《教育心理学》笔记11
FRM(模型风险—LTCM）
工作总结（2018.6.19-2018.6.22）
10 进化合理性

为什么要用 Evolution Strategies？

我们知道神经网络很强大，如果我们能够找到一组合适的模型参数，我们就可以使用神经网络来解决许多具有挑战性的问题。

深度学习的成功主要来自于它可以使用反向传播算法有效地计算目标函数对每个模型参数上梯度。通过这些梯度，我们可以有效地搜索参数空间，找到一个不错的模型来解决问题。

然而，有很多问题不能使用反向传播算法，

例如在强化学习（RL）中，虽然也可以训练神经网络来做出决策，通过执行一系列 action 来完成环境中的某些任务。
但是却不能有效估计当前时刻的 agent 在未来将获得的 reward 的梯度，
尤其是这个奖励要在未来好多个时间步之后才能实现的时候。
即使我们能够计算出准确的梯度，也存在陷入局部最优的问题，而且陷入局部最优在 RL 中非常常见。

什么是 Evolution Strategies？

OpenAI 发表了一篇论文：Evolution Strategies as a Scalable Alternative to Reinforcement Learning
Evolution Strategies 的数据效率虽然没有 RL 高，但却有许多好处。

因为放弃了梯度计算，所以算法评估起来更有效。
而且可以很容易地将 ES 算法的计算分配给数千台计算机进行并行计算。
并且通过 ES 算法发现的 policy 要比 RL 发现的更多样化。

Rastrigin_function

从图中可以看出这个 Rastrigin 函数有很多局部最优点，
我们可以只取其中的一部分进行讨论说明，
如图所示，分别是 2D Schaffer 和 Rastrigin 函数的 top-down 视图，

schaffer	rastrigin

我们的目标是找到一组模型参数（x，y），使 F（x，y）尽可能接近全局最大值。

evolution strategy 是一个可以为用户评估问题提供一组候选解决方案的算法。

它基于一个目标函数的，输入一个给定的 solution，返回一个适应值 fitness value，
基于当前解决方案的适应值，该算法将产生下一代候选解决方案，产生比当前解决方案更好的结果。
当用户对解决方案满意时，迭代过程停止。
而且我们可以从 ES 获得任意数量的解决方案，因为它是从一个概率分布中采样的， ES 会在每一代更新这个分布的参数。

solver = EvolutionStrategy()

while True:

  # 让 ES 算法提供一个候选集 solutions
  solutions = solver.ask()

  # 建立一个 array 来存 fitness results.
  fitness_list = np.zeros(solver.popsize)

  # 评估每个方案的 fitness 
  for i in range(solver.popsize):
    fitness_list[i] = evaluate(solutions[i])

  # 将 fitness 结果再次给 ES
  solver.tell(fitness_list)

  # 从 ES 得到最好的 parameter, fitness 
  best_solution, best_fitness = solver.result()

  if best_fitness > MY_REQUIRED_FITNESS:
    break