1.基本概念
- Agent:智能体
- System Environment:系统环境/实验的操控者
- Observation/State:观察值(Agent眼中环境的状态)
- Action:行动/Agent的反映
- Reward:回报/反馈
在经典强化学习中,智能体要和环境完成一系列交互
(1)在每一个时刻,系统都将处于一种状态
(2)智能体将设法得到环境当前状态的观察值
(3)智能体根据观察值,结合自己历史的行为准则(策略,Policy)做出行动。
(4)这个行动会影响环境的状态,是环境发生一定的改变。Agent将从改变后的环境中得到两部分信息:新的环境观测值和行为给出的回报。Agent可以根据新的观测值做出新的行动。
2.强化学习两个特点
(1)不断试错
(2)看重长期回报
网友评论