推断 = 规划
如何推断?
- 计算反向消息:
- 计算策略(最优策略):
- 计算前向消息:
其中,Optimal变量服从伯努利分布
Backward pass

从t=T到t=1递归计算
Policy computation


Forward messages

Summary

原先的值迭代、策略迭代算法由max ----> softmax,变成基于能量的形式
其中,Optimal变量服从伯努利分布
本文标题:推断与控制的关系
本文链接:https://www.haomeiwen.com/subject/wuljtqtx.html
网友评论