计算神经科学小册子翻译 -- 原作 Dyan

作者: 天_d772 | 来源:发表于2019-10-07 12:13 被阅读0次

9 分类条件和增强学习

9.2 经典条件作用

经典调节涉及广泛的不同的训练和测试程序和丰富的行为现象集。我们讨论的基本步骤和结果总结在表9.1中。在这一点上，我们不使用表中的条目，而是引入一种学习算法，用于总结和构造这些结果。在经典的巴甫洛夫实验中，狗在铃响后被反复喂食。随后，每当铃声响起，狗就会流口水，好像它们期待食物的到来。这种食物叫做无条件刺激。狗在接受食物时自然会分泌唾液，因此唾液分泌被称为无条件反应。铃被称为条件刺激，因为它只在先前学习的条件下才引起唾液分泌。对铃的学习唾液反应称为条件反应。在下面的讨论中，我们不使用这个术语。相反，我们处理那些条件反应的方面，标志着动物对奖励的期望，并建立这些期望是如何学习的模型。因此，我们指的是刺激、奖励和对奖励的期望。

预测报酬：Rescorla-Wagner法则

Rescorla-Wagner规则（Rescorla和Wagner，1972）是第8章delta规则的一个版本，它提供了经典条件作用某些方面的简明说明。这个规则是基于对刺激相关奖励的简单线性预测。我们使用二元变量U来表示刺激的存在或不存在（如果刺激存在，U = 1，如果不存在U = 0）。由V表示的预期报酬表示为这个刺激变量乘以权重W，

权重的值W由学习规则建立，以最小化实际回报r与预测之间的预期平方误< $(r-\upsilon )^2$ >。尖括号表示刺激和奖励呈现的平均值，其中一个或两个都可能是随机的。正如我们在第8章中所看到的，以delta规则形式的随机梯度下降是最小化这种误差的一种方法。这就产生了一个又一个的试验学习规则，叫做Rescorla-Wagner规则，

这里 $\epsilon$ 是学习率，可以用心理学术语解释为刺激与奖励的关联性。这个学习规则的关键术语是预测误差。在后面的部分中，我们解释了腹侧被盖区（VTA）中多巴胺能细胞的活动，作为编码这种预测误差的一种形式。如果足够小且每次试验的u=1（刺激总是呈现），则规则最终使w围绕平衡值w=r波动，此时的平均值为0。

表9.1经典条件反射范式。列指示训练程序和结果，一些范式需要预先训练以及训练期。训练和预训练阶段都包括训练试验次数。箭头表示一个或两个刺激（S或S1和S2）和奖励（R）或缺少奖励（·）的关联。在部分和抑制性条件反射中，两种训练试验交替进行。在结果栏中，箭头表示刺激与期望报酬（R）或无奖励（'·'）之间的关联。因子表示部分或减弱的期望，负号表示抑制期望回报。

网友评论

本文标题：计算神经科学小册子翻译 -- 原作 Dyan

本文链接：https://www.haomeiwen.com/subject/nrcmpctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

计算神经科学小册子翻译 -- 原作 Dyan

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读