马尔科夫过程的优化
强化学习是agent与环境之间的迭代交互,需要考虑几点:
处于某种状态,决策者将在该状态下选择一个动作;
能随机进入一个新状态并给决策者相应的回报作为响应;
状态转移函数选择的动作将影响新状态的选择;
马尔科夫过程的优化
强化学习是agent与环境之间的迭代交互,需要考虑几点:
处于某种状态,决策者将在该状态下选择一个动作;
能随机进入一个新状态并给决策者相应的回报作为响应;
状态转移函数选择的动作将影响新状态的选择;
本文标题:马尔科夫过程的优化
本文链接:https://www.haomeiwen.com/subject/bwcdhctx.html
网友评论