机器学习笔记19: 线性二次型高斯

机器学习笔记19: 线性二次型高斯

作者: secondplayer | 来源:发表于2018-11-30 23:07 被阅读152次

机器学习笔记19: 线性二次型高斯
多元线性回归
2018-11-06
机器学习笔记17: 线性二次型调节控制
[机器学习入门] 李宏毅机器学习笔记-25（Sturctured
Python机器学习基础教程学习笔记（5）——线性模型（回归）
【机器学习】单一变量的线性回归及python实现
《机器学习》西瓜书学习笔记（二）
[机器学习入门] 李宏毅机器学习笔记-19 （Deep Gene
机器学习笔记_01线性回归和逻辑回归

线性二次型高斯(Linear Quadratic Gaussian (LQG))

在现实世界中，我们通常不能获取到所有的状态s_t。比如一个自动驾驶汽车可以通过摄像头获取图像，但这仅仅是一个观察(observation)，并不能反映真实世界的所有状态。我们之前的讨论都是基于状态是可以完全获得的。考虑到真实世界并不是这样，我们需要一个新工具来对真实世界建模，这个工具就是部分可观测的MDP(Partially Observable MDP (POMDP))。

一个POMDP是在MDP的基础上增加一个观察层。也就是说，我们引入一个新变量o_t，在给定状态s_t下，o_t遵循某个条件概率分布，即：

一个有界的POMDP由如下六元组构成：

在这个框架下，一般的策略是基于一组观察o₁, ..., o_t维护一个信念状态(belief state)(状态的概率分布)。而一个POMDP的策略将信念状态映射成行动。

这一小节我们将对LQR做一些扩展，假设我们观察到y_t∈ R^m并且有：

其中C ∈ R^m×n是一个压缩矩阵(compression matrix)，v_t是噪音(和w_t一样都是服从高斯分布)。注意现在奖励函数的定义保持不变，依旧是关于状态和行动的一个函数。由于概率分布是高斯的，所以信念状态也服从高斯分布。在这个新设定下，我们来看下求解最佳策略的方法。

步骤1: 首先基于观察求出可能状态的概率分布

其中s_t|t和Σ_t|t分别为这个概率分布的均值和方差

步骤2: 使用均值s_t|t作为s_t的最佳近似

步骤3: 最佳行动a_t := L_ts_t，其中L_t的定义来自普通LQR算法

由于LQR中我们已经证明结果与噪音无关，所有步骤2中我们可以用s_t|t作为s_t的最佳近似。

其中步骤1我们需要详细展开讲一下。简单起见，我们先考虑动态模型与行动无关，假设：

由于噪音都服从高斯分布，因此它们的联合分布也服从高斯分布，即：

根据在因子分析中介绍的边缘概率分布公式，可得：

然而计算边缘分布非常耗时，这需要我们对t×t的矩阵进行计算。由于计算一个逆矩阵的时间复杂度是O(t³)，而这个计算需要重复t次，因此总的时间复杂度是O(t⁴)。

为了提高计算的速度，我们将采用卡尔曼滤波(Kalman filter)算法来计算均值和方差，这个算法的时间复杂度只有O(t)。

卡尔曼滤波算法只有两步：预测步(predict step)和更新步(update step)。假设我们知道s_t|y₁, ..., y_t的概率分布，即：

那么：

预测步: 下一个状态的概率也服从高斯分布，并且：

更新步: 给定s_t+1|t和Σ_t+1|t，并且满足：

我们可以证明：

其中：

矩阵K_t被称为卡尔曼增益(Kalman gain)。

如果我们仔细看一下上面的公式，会发现我们并不需要上一个时刻的观察值。更新步中只需要依赖上一步的概率分布。总的来说，这个算法首先进行向前推算(forward pass)计算出K_t, Σ_t|t和s_t|t，然后再进行向后推算(backward pass)(也就是LQR更新)计算出Φ_t, Ψ_t和L_t，最后根据公式a_t^* = L_ts_t|t计算出最优策略。

总结

由于在现实世界中通常不能获取到所有的状态，我们只能获取到观察值，因此在MDP的基础上增加一个观察层，这个模型叫做POMDP
求解POMDP的最优策略需要用到卡尔曼滤波算法，该算法时间复杂度只有O(t)，可以大幅提高运算性能

参考资料

斯坦福大学机器学习课CS229讲义 LQR, DDP and LQG
网易公开课：机器学习课程双语字幕视频

相关文章

机器学习笔记19: 线性二次型高斯
线性二次型高斯(Linear Quadratic Gaussian (LQG)) 在现实世界中，我们通常不能获取到...
多元线性回归
链接：多元线性回归 NG机器学习公开课笔记：机器学习笔记
2018-11-06
机器学习： 1、kmeans 2、meanshift 3、最小二乘法 4、逻辑回归、线性回归 5、混合高斯模型 6...
机器学习笔记17: 线性二次型调节控制
有限边界的MDP 在前面两章关于强化学习的介绍中，我们定义了马尔可夫决策过程(MDP)以及价值迭代/策略迭代这两种...
[机器学习入门] 李宏毅机器学习笔记-25（Sturctured
[机器学习入门] 李宏毅机器学习笔记-25（Sturctured Linear Model；结构化预测-线性模型）...
Python机器学习基础教程学习笔记（5）——线性模型（回归）
Python机器学习基础教程学习笔记（5）——线性模型（回归） 1 线性回归处理wave数据集 1.1 wave数...
【机器学习】单一变量的线性回归及python实现
一、线性回归理论概述概述大致引用自机器学习之线性回归-AndrewNg学习笔记注意，此文章的意义在于用符号...
《机器学习》西瓜书学习笔记（二）
上一篇笔记在这里：《机器学习》西瓜书学习笔记（一）第三章线性模型 3.1 基本形式线性模型：试图学得一个通过...
[机器学习入门] 李宏毅机器学习笔记-19 （Deep Gene
[机器学习入门] 李宏毅机器学习笔记-19 （Deep Generative Model-part 2：深度生成模...
机器学习笔记_01线性回归和逻辑回归
机器学习笔记_01线性回归和逻辑回归 [TOC] 一、什么是机器学习利用大量的数据样本，使得计算机通过不断的学习...

网友评论

机器学习

本文标题：机器学习笔记19: 线性二次型高斯

本文链接：https://www.haomeiwen.com/subject/ctlmqqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

机器学习

关于我们|服务条款|联系我们|机器学习笔记19: 线性二次型高斯|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！