美文网首页
QMDP-Net阅读记录

QMDP-Net阅读记录

作者: 我超级乖 | 来源:发表于2018-11-11 14:38 被阅读0次

记录一下自己所看的论文,后续会继续更新一些model-based的论文阅读记录,欢迎交流、讨论(emmmmm,我实在才疏学浅)。

论文:P Karkus, D Hsu, WS Lee,” Qmdp-net: Deep learning for planning under partial observability”,NIPS 2017

是一篇Initation Learning的论文(并不是DRL)。

有以下两个特点:

a、将贝叶斯滤波器和QMDP算法嵌入到一个RNN中,解决一个POMDP问题(主要是导航规划的问题)

b、是一个end-to-end算法,预测专家的输出


1、POMDP(部分观察马尔可夫决策过程)

与MDP的差异在于agent仅有观察o\in O,而无法获知完整的状态信息(环境的状态无法被直接感知到)。论文中例子如下:

原作者示例

如果不使用GPS,在导航中,agent对环境的认识显然是局部的、部分的。

一个POMDP模型可以被定义为(S,A,O,T,Z,R):

S:有限的状态空间,A:有限的动作空间,O:有限的观察空间。

T:状态-动作转移概率,即p(s'|s,a),也称之为动力学模型。Z:条件观测模型,p(o|s)。R:状态-动作的奖励,就是奖励函数。

置信度分布(belief):它表示对环境状态的置信度的分布:b(s)=p(s)。有一种观点是将POMDP作为一个置信-状态的MDP(Belief-State MDP)。

2、贝叶斯滤波器和QMDP

POMDP算法是较为复杂的,QMDP是一种简单的近似POMDP算法,算法如下:

QMDP算法

b(s)为置信度分布,它的更新策略为贝叶斯滤波器:

贝叶斯滤波器

结合这两个算法,我们就能够较为清晰的看明白论文中的网络结构了。

3、QMDP-net

网络结构

网络结构如上图所示,ft、fa、fz、fo、f‘t、fpi均为神经网络,ft和f’t为卷积神经网络,实质拟合的是环境动力学,fa、fo对动作、观察进行编码,主要为了统一输入维度。fz拟合的是状态-观察分布,原文使用的是CNN。fpi将q值计算结果转换为策略,使用的并不是决定性策略,所以它是一个分布函数,原文使用softmax函数。K定义了值迭代的次数,过大则增加网络的深度,但在训练和执行时可以使用不同的K。

(a)为贝叶斯滤波器模型,(b)为QMDP规划模型,显然与前面描述的算法是一致的。

损失使用交叉熵损失函数,计算专家的输出与agent的输出的交叉熵。

4、推荐阅读

(1)http://dai.fmph.uniba.sk/~petrovic/probrob 的ch15(POMDP)、ch16(近似POMDP),这本书不错。

(2)S Thrun,W Burgard,D Fox“Probabilistic robotics”,chapter 2介绍状态的定义,贝叶斯滤波器,不过这一章关于贝叶斯滤波器的介绍与论文角度不太一样。

(3)建议读一读源代码。论文中有链接。

转载,请注明出处,谢谢。

相关文章

  • QMDP-Net阅读记录

    记录一下自己所看的论文,后续会继续更新一些model-based的论文阅读记录,欢迎交流、讨论(emmmmm,我实...

  • 谁动了你的数据

    阅读记录模板: 时间: 阅读时长: 阅读章节: 阅读记录: 读后感记录 时间:3.31 阅读时长:43分钟 阅读章...

  • 阅读记录

    2018年4月21日 读经典第一天。没想到能这么顺利,一家人一起读书半小时,很好的开始。 今天读了...

  • 阅读记录

    今天我看了《非凡小学_大林与奇幻之旅》。 我最喜欢的一章是写作与戏剧。校长要上写作与戏剧课,大连说,英国有一个...

  • 阅读记录

    今天,我看了一本《小屁孩上学记》,里面讲的是,小屁孩朱尔多在学校里的趣事。 我最喜欢的一个故事是:朱尔...

  • 阅读记录

    20180215。 御繁华 20180217。 三思楼

  • 阅读记录

    我看了一本书,名叫《哈利.波特与阿玆卡班的囚徒》里面讲的是:哈利.波特在霍格沃茨学校和他的好朋友罗恩.韦斯菜...

  • 阅读记录,

    拖延症 阿尔伯特.哈伯德的《你不必完美》

  • 阅读记录

    11.25 乌鸦糕点店 乌鸦天妇罗店 乌鸦荞麦面店 空中飞羊 颠倒的字 蜡笔小黑 学会沟通与合作

  • 阅读记录

    《从八岁来》 作者:周公度 “不错吧,他们都在给我叩头!”我抿着嘴,点点头。 “后天出殡,我还要站头排打幡呢!”我...

网友评论

      本文标题:QMDP-Net阅读记录

      本文链接:https://www.haomeiwen.com/subject/lexlkftx.html