Richard S. Sutton 教授与 Andrew G. Barto 教授合著的第二版笔记
2.4Incremental Implementation 背景:目前的行动价值方法都将行动价值估计为观察到的奖励...[作者空间]