9 分类条件和增强学习
9.2 经典条件作用
经典调节涉及广泛的不同的训练和测试程序和丰富的行为现象集。我们讨论的基本步骤和结果总结在表9.1中。在这一点上,我们不使用表中的条目,而是引入一种学习算法,用于总结和构造这些结果。在经典的巴甫洛夫实验中,狗在铃响后被反复喂食。随后,每当铃声响起,狗就会流口水,好像它们期待食物的到来。这种食物叫做无条件刺激。狗在接受食物时自然会分泌唾液,因此唾液分泌被称为无条件反应。铃被称为条件刺激,因为它只在先前学习的条件下才引起唾液分泌。对铃的学习唾液反应称为条件反应。在下面的讨论中,我们不使用这个术语。相反,我们处理那些条件反应的方面,标志着动物对奖励的期望,并建立这些期望是如何学习的模型。因此,我们指的是刺激、奖励和对奖励的期望。
预测报酬:Rescorla-Wagner法则
Rescorla-Wagner规则(Rescorla和Wagner,1972)是第8章delta规则的一个版本,它提供了经典条件作用某些方面的简明说明。这个规则是基于对刺激相关奖励的简单线性预测。我们使用二元变量U来表示刺激的存在或不存在(如果刺激存在,U = 1,如果不存在U = 0)。由V表示的预期报酬表示为这个刺激变量乘以权重W,
权重的值W由学习规则建立,以最小化实际回报r与预测之间的预期平方误<>。尖括号表示刺激和奖励呈现的平均值,其中一个或两个都可能是随机的。正如我们在第8章中所看到的,以delta规则形式的随机梯度下降是最小化这种误差的一种方法。这就产生了一个又一个的试验学习规则,叫做Rescorla-Wagner规则,
这里是学习率,可以用心理学术语解释为刺激与奖励的关联性。这个学习规则的关键术语是预测误差。在后面的部分中,我们解释了腹侧被盖区(VTA)中多巴胺能细胞的活动,作为编码这种预测误差的一种形式。如果足够小且每次试验的u=1(刺激总是呈现),则规则最终使w围绕平衡值w=r波动,此时的平均值为0。
表9.1经典条件反射范式。列指示训练程序和结果,一些范式需要预先训练以及训练期。训练和预训练阶段都包括训练试验次数。箭头表示一个或两个刺激(S或S1和S2)和奖励(R)或缺少奖励(·)的关联。在部分和抑制性条件反射中,两种训练试验交替进行。在结果栏中,箭头表示刺激与期望报酬(R)或无奖励('·')之间的关联。因子表示部分或减弱的期望,负号表示抑制期望回报。
网友评论