美文网首页
Day 2211:强化学习

Day 2211:强化学习

作者: kafkaliu | 来源:发表于2023-02-13 19:11 被阅读0次

马尔可夫奖励过程(Markov reward process, MRP)是马尔可夫链加上奖励函数。在马尔可夫奖励过程中,状态转移矩阵和状态都与马尔可夫链一样,只是多了奖励函数(reward function)。奖励函数 R 是一个期望,表示当我们到达某一个状态的时候可以获得多大的奖励。这里另外定义了折扣因子 γ。如果状态数是有限的,那么 R 可以是一个向量。

相关文章

网友评论

      本文标题:Day 2211:强化学习

      本文链接:https://www.haomeiwen.com/subject/eklskdtx.html