美文网首页
2018-05-10

2018-05-10

作者: deathneverdie | 来源:发表于2018-05-10 19:37 被阅读0次

靠....AI课小测又没去。。

高级计算机网络也是水课,水特喵的。

但是课还是挺有意思的。还有老师假扮黑客交流终端安全,以及美国某教授来我们这儿划水

老师挺可爱的

//////////////////////////////////////////////////////////////////////////////////////////////////////////

第四章提到了迭代方程:

首先是贝尔曼方程:

然后是迭代方程:

一开始看着两个公式的时候我是一脸懵逼的。。为什么式子完全相同,但是上面的是策略Vπ没有变,而下面的是Vk+1和Vk

经过讨论,大致的结果是,上面的式子应该是全探索情况下(感觉基本等同于收敛)的式子,但是实际上全探索是很难实现的,所以我们的策略是在不断更新迭代的,也就是下面的K+1和K这其实也是黎叔说的数学上的式子和CS上的式子----我们用的是下面的(先这么理解吧,结合实例可能能理解的更透彻)

这个就是DP算法的更新过程~(现在看起来很简单)

△那个是一开始初始化为0

v = V(s)这个就是全备份,下面那个就是对V(s)的更新

终止条件其实就是Vk+1和Vk之间的差距足够小就OK~

一个简单但是有效的例子:

具体解题步骤写在书上了。

相关文章

网友评论

      本文标题:2018-05-10

      本文链接:https://www.haomeiwen.com/subject/bvizrftx.html