- 论文题目:Maximum Entropy Monte-Carlo Planning
所解决的问题?
- 作者提出了一个新的
stochastic softmax bandit
框架; - 将其扩展到
MCTS
上,得到了Maximum Entropy for Tree Search (MENTS)
算法。
将softmax state value
引入,在back-propaganda
过程中会更容易收敛。作者在理论和实验部分都验证了这两个想法。
背景
MCTS
Monte Carlo Tree Search (MCTS)
是一种非常好的能够获取全局最优的算法,同时也可以通过引入先验知识对其进行加强。它的核心问题在于exploitation
和exploration
的平衡。而MCTS
的收敛性高度依赖于state value
的 estimation
。而MCTS
通过simulation
获得当前状态的估计这种做法并不是非常高效,因此在sample
的过程中你的policy
会发生改变,导致你的序列期望收益会发生漂移(drift
),因此 UCT can only guarantee a polynomial convergence rate of finding the best action at the root。MCTS
主要可以分为两步:1. tree policy
选择action
,直到到达叶子节点。2. 一个evaluation function
需要评估simulation return
,你可以选择近函数近似的方式来逼近这个值,但是在MCTS
中采用的是roll-out policy
获取simulation return
。
maximum upper confidence bound(UCB)
算法用于平衡探索和利用:
其中,是控制exploration
的参数。
Maximum Entropy Policy Optimization
最大熵的策略优化问题其实就是在expected reward
目标上引入一个entropy
的约束。可表示为:
其中是控制exploration
的参数。定义softmax
和soft indmax
:
其中的关系为:
因此用softmax value function
去替代hard-max operator
可以得到softmax operator
:
最后可以得到optimal softmax policy
:
Softmax Value Estimationin Stochastic Bandit
在stochastic bandit
中,环境给定的reward
是随机的,或者说会满足一个分布。stochastic softmax bandit
问题与传统的stochastic bandits
问题的区别在于,它不是期望去找到最大化期望奖励的policy
,而是去估计softmax value
。定义,。因此会有,我们的目标就变成了最小化均方差误差。
基于上述讨论作者提出了一种解决序贯决策中softmax value
估计的办法(Empirical Exponential Weight (E2W) ),直观的理解就是期望足够的探索用于保证得到较好的估计值,进而使得policy
收敛于最优策略。动作的采样分布如下所示:
其中 ,表示探索的衰减系数。
Theorem2所采用的方法?
作者将MCTS
和maximum entropy policy
结合起来,得到MENTS
算法,能够获得更快的收敛速度。两点创新:
- 使用
E2W
算法作为树搜索的策略;
- 使用
softmax value
评估每个节点并用于simulations
的反向传播。
其中Q-Value
的估计使用softmax backup
。
取得的效果?
synthetic tree environment下的实验结果规划实验结果
网友评论