最优控制

作者: TonnyYan | 来源:发表于2018-10-22 13:39 被阅读70次

最优控制
最优控制: LQR
LunarLander-v2 in reinforcement
常见数学建模模型
前沿信息Advanced Information｜如何做好PPT
凸优化随笔
10. 最优控制与规划（Optimal Control and

最优控制

最优控制理论研究的是在给定系统模型的条件下找到一个控制律，使得该控制系统达到一定的最优性指标的问题。它是变分（variations）的扩展，是一种用于推导（求解）最优控制策略的数学优化方法。

对一个受控的动力系统，从一类允许的控制方案中寻找一个最优的控制方案，使得系统的运动从由某个初始状态转移到目标状态的同时其性能指标值为最优。

例如，对于一个给定的系统（状态空间模型）和二次型性能指标，设计一个控制器 $u$ ，不仅使得闭环系统渐近稳定，且使得二次型性能指标 $J$ 最小化的问题称为二次型最优控制问题，并且具有这样性质的控制器 $u$ 称为是二次型最优控制问题的最优控制器。

性质

一般情况下，由极大值原理计算出的（根据系统模型离线规划出的）最优控制是关于时间 $t$ 的函数 $u(t)$ ，称为开环控制。已知初始状态 $x_0$ 求得 $u_0=k_0*x_0$ ，根据系统动态转移到 $x_1$ 依次前向传递，规划出控制作用 $u_k$ ，这是一种开环控制方式。
开环控制的主要缺点是，不能消除或抑制由于系统建模不确定性或环境变化对系统造成的扰动，在实际的控制过程中很可能不是最优的，也就是鲁棒性较差。

这里需要注意的是，在有限时域的情况，求出的 $k_t$ 是时变的，因为系统经历动态过程，当系统达到稳态，此时 $k_t$ 也将收敛到定值。而MPC只用了第一个控制量，基于当前时刻的，因此可以认为是一种闭环控制。

最优控制的另一种形式是表示为状态变量 $x(t)$ 的函数 $u(x)$ ，实际上是引入了反馈，因此称为闭环控制，其优点是能有效抑制扰动。

求解方法

最优控制问题的本质是变分为题，经典变分理论只能解决一类简单的最优控制问题。
现代变分理论最常用的就是极大值原理和动态规划（dynamic programming）。
按照控制作用的实现方式分为，开环控制和闭环控制。

古典变分法研究对泛函求极值的一种数学方法，只能用在控制变量的取值范围不受限的情况。
极大值原理（Lev Pontryagin）是分析力学中哈密尔顿方法的推广，其突出优点是可以用于控制变量受限的情况。
动态规划（Bellman）为数学规划的一种，同样可用于控制变量受限的情况，一种适合在计算机上进行计算的有效的方法，应用十分广泛。

线性二次型最优控制

考虑如下线性时不变系统的状态空间模型：
$\left\{ {\begin{array}{*{20}{c}} {\dot x = Ax + Bu} \\ {y = Cx} \end{array}} \right.$

其中， $x$ 是系统的 $n$ 维状态空间， $u$ 是系统的 $m$ 维控制输入， $y$ 是系统的 $r$ 维测量输出， $A、B$ 和 $C$ 分别是适当维数的已知常数矩阵，系统的初始状态是 $x(0)= x_0$ 。

系统的性能指标为：
$J=\int _0^\infty \left[{x^{\rm T}Qx + u^{\rm T}Ru}\right] dt$

这里关心的问题是：对给定的系统和性能指标，设计一个控制器 $u$ ，使得给定的性能指标 $J$ 最小，具有这样性质的控制器 $u$ 称为是二次型最优控问题的最优控制器。

若系统的状态都是可以直接测量，且考虑的控制器是状态反馈控制器，则可以证明，使得性能指标最小化的最优控制器具有以下的线性状态反馈形式：
$u= -Kx$

本节将基于李雅普诺夫稳定性理论给出最优状态反馈控制器的设计方法。将控制器代入系统方程，可得：
$\dot x = (A-BK)x$

若系统是渐近稳定的，则根据线性时不变系统李雅普诺夫稳定性定理，闭环系统一定存在一个二次型的李雅普诺夫函数 $V(x)= x^{\rm T}Px$ ，其中 $P$ 是一个对称正定矩阵。

利用系统的稳定性，作如下推导：
$\begin{aligned} J &= \int ({{x}^{\rm T}}Qx + {u^{\rm T}}Ru)dt \\ &= \int ({{x}^{\rm T}}Qx + {u^{\rm T}}Ru+\frac{d}{{dt}}V\left( x \right))dt - \int \frac{d}{{dt}}V\left( x \right))dt \\ &= \int( {{x}^{\rm T}}Qx + {u^{\rm T}}Ru+ x^{\rm T} \left[ {P(A-BK)+(A-BK)^{\rm T}P} \right]x ) dt - V\left. {\left[ {x\left( t \right)} \right]} \right|_{t = 0}^{t = \infty } \\ &= \int{{x}^{\rm T}}(Q +K^{\rm T}RK +PA+A^{\rm T}P-PBK-K^{\rm T}B^{\rm T}P )x dt+ x_0^{^{\rm T}}Px_0 \\ \end{aligned}$

以上通过分别加上和减去一项 $\int _0^{\infty}\frac{d}{{dt}}V\left( x \right))dt$ ，并沿闭环系统的轨迹求 $V(x)$ 关于时间的导数，其目的是通过引入更多包含反馈增益矩阵 $K$ 的信息，采用配平方的方法来确定使得性能指标 $J$ 最小化的反馈增益矩阵 $K$ ，根据：
$\begin{aligned} &K^{\rm T}RK-PBK-K^{\rm T}B^{\rm T}P \\ &= K^{\rm T}RK-PBK-K^{\rm T}B^{\rm T}P +PBR^{-1}B^{\rm T}P-PBR^{-1}B^{\rm T}P \\ &= (K-R^{-1}B^{\rm T}P)^{\rm T}R(K-R^{-1}B^{\rm T}P)- PBR^{-1}B^{\rm T}P\\ \end{aligned}$

可得：
$\begin{aligned} J= \int &x^{\rm T}(PA+A^{\rm T}P-PBR^{-1}B^{\rm T}P+Q)xdt \\ &+ x_0^{^{\rm T}}Px_0 + \int x^{\rm T}(K-R^{-1}B^{\rm T}P)^{\rm T}R(K-R^{-1}B^{\rm T}P)xdt \\ \end{aligned}$

求解最优控制问题就是要寻找一个增益矩阵 $K$ ，使得上述性能指标 $J$ 最小。由于上式中只有第三项依赖于矩阵 $K$ ，而且还是非负的。只有当该项等于零时， $J$ 才能最小，而这项等于零当且仅当 $K=R^{-1}B^{\rm T}P$ （控制器增益取决于李雅普诺夫矩阵 $P$ ），此时性能指标的最小值为：
$\begin{aligned} J= \int &x^{\rm T}(PA+A^{\rm T}P-PBR^{-1}B^{\rm T}P+Q)xdt +x_0^{^{\rm T}}Px_0 \\ \end{aligned}$

显然，增益矩阵 $K$ 和性能指标 $J$ 依赖于待定的对称正定李雅普诺夫矩阵 $P$ 。特别是当可以找到一个对称正定阵 $P$ 使得：
$PA+A^{\rm T}P-PBR^{-1}B^{\rm T}P+Q=0$

则，此时性能指标 $J^{\star}=x_0^{^{\rm T}}Px_0 = V(x_0)$ ，上述方程称为黎卡提矩阵方程。这里也可以看出李雅普诺夫函数也就是最优值函数。

总结以上分析给出以下定理：

定理：若 $（A,B）$ 能控，则线性二次型最优控制问题可解，最优状态反馈控制器为：
$u = -Kx = -R^{-1}B^{\rm T}Px$ 性能指标的最小值 $J^{\star}=x_0^{^{\rm T}}Px_0$ 。其中的 $P$ 是黎卡提方程的一个对称正定解。

性能指标最小值依赖于系统初始状态 $x_0$ 和黎卡提方程的一个解矩阵。

由于最优状态反馈控制器一定是系统的一个稳定化控制器，故线性二次型最优控制问题提供了求解系统稳定化控制器的一种新方法。用该方法设计的稳定化控制器，不仅能够使系统渐近稳定，而且还能保证控制系统具有最优的动态性能。

参考文献

1.https://blog.csdn.net/u012267725/article/details/77986517
2.https://en.wikipedia.org/wiki/Optimal_control

最优控制
最优控制最优控制理论研究的是在给定系统模型的条件下找到一个控制律，使得该控制系统达到一定的最优性指标的问题。它是...
最优控制: LQR
一份关于 LQR 的简单易懂的入门级教程，它是最优控制的基础概念。我将会在这篇文章中讨论最优控制，并会更具体的讨...
LunarLander-v2 in reinforcement
这篇文章讲的是ppo算法，训练lunarlander。 ( 关于这个环境：火箭轨迹优化在最优控制中是一个经典的主题...
常见数学建模模型
优化模型性规划，半定规划、几何规划、非线性规划，整数规划，多目标规划（分层序列法），最优控制（结合微分方程组）、...
前沿信息Advanced Information｜如何做好PPT
「哈佛大学终生教授，美国工程院院士，清华大学讲座教授。长期从事系统控制科学及工程应用研究，在最优控制、微分对策、团...
凸优化随笔
凸优化的应用十分十分广泛投资组合中：最大化收益函数，然后列出一些限制条件。工程控制中最优控制理论医疗图像中：压缩...
10. 最优控制与规划（Optimal Control and
主要内容：介绍基于模型的强化学习如果我们知晓模型的转移概率，如何进行决策控制随机优化方法（Stochasti...