强化学习与自动控制

作者: chenbihua | 来源:发表于2016-04-07 20:47 被阅读0次

强化学习与自动控制
强化学习、价值函数和区块链
学习对比《深入浅出强化学习原理入门》PDF代码+郭宪+《强化学习
强化学习笔记（1）--概述
基础
强化学习基础知识详解
强化学习基础篇（一）强化学习入门
强化学习(Q-funcation,DQN)基本介绍
强化学习与深度强化学习的思想
Tensorflow2.x 深度强化学习——Policy Gra

今天先挖一个坑

Reinforcement Learning常常被归为机器学习方法的一种。实际上，这种方法在控制理论领域也是大热，其换了一个名字，叫自适应动态规划(Adaptive Dynamic Programming, ADP). 在机器学习领域, 人们更关心这种方法的实际应用效果; 而在控制领域, 更关心数学上严格的稳定性证明.

模型

针对模型的不同，衍生出不同的方法流派，目前有三类方法, 参考Jiang Zhongping的论文

连续域方法
差分域方法
离散域方法

先说说连续域方法, 也就是控制领域常用的方式, 主流控制方法, 从PID到鲁棒控制到backstepping, 大致都是基于连续域设计的. 虽然这些方法都有相应的离散域版本, 但传统还是基于连续域的. 强化学习有深厚的机器学习背景, 因此本质上是数据驱动的控制方法(Data driven method). 因此和一般的模型驱动方法(Model Drivien Method)需要完整的名义模型不同, 也和像PID这种无模型(Model Free Method)方法不是一回事.