美文网首页
计算神经科学小册子翻译 -- 原作 Dyan

计算神经科学小册子翻译 -- 原作 Dyan

作者: 天_d772 | 来源:发表于2019-10-07 12:02 被阅读0次

9 分类条件和增强学习

9.1  简介

动物在相关奖励或惩罚的基础上,在特定刺激下学习适当行动的能力是行为心理学关注的焦点。该领域传统上分为古典(或巴甫洛夫)和工具性(或操作)条件反射。在经典条件作用中,强化物(即奖励或惩罚)是独立于动物所采取的任何行动来传递的。在工具性条件反射中,动物的动作决定提供什么增强仅仅根据与刺激或行动相关的奖惩来学习刺激或行动叫做强化学习。强化学习是最低限度的监督,因为动物没有明确地告诉他们在特定的情况下采取什么行动,但必须在他们得到的强化的基础上为他们自己解决这个问题。本章首先讨论了经典条件作用的各个方面以及为解释这些方面而发展的模型。我们首先讨论一个或多个刺激的不同配对,以表示或拒绝奖励,并提出一个简单的学习算法来总结结果。然后,我们提出了一种算法,称为时间差异学习,导致预测的应给奖励的存在和时间,在延迟接下来的刺激呈现。两个神经系统,小脑和中脑多巴胺系统,已经从调节的角度进行了特别研究。小脑已经被研究与眨眼调节相关,一种动物学习的方法只是在干扰的前闭上眼睛,例如空气的脉冲,这些信号是由线索发出的。中脑多巴胺能系统与奖赏学习有关。我们将重点放在后一个方面,还有一小部分关于条件反射的广泛行为数据。

有两大类工具性条件作用任务。在第一类中,我们用蜜蜂觅食的例子来说明,在采取行动后,会立即传递强化物。这使得学习相对容易。在第二类中,奖惩取决于一个完整的行为序列,并且部分或全部延迟到该序列完成为止。因此,学习顺序中每一步的适当动作必须基于未来的期望,而不是立即收到奖励。这使得学习变得更加困难。尽管古典条件作用和工具性条件作用之间存在差异,但是我们展示了如何使用我们讨论的古典条件作用的时间差异模型作为奖励延迟时工具性条件作用模型的核心。为了与关于强化学习的文献保持一致,在本章中,字母r用于表示奖励而不是放电率。此外,为了方便起见,我们考虑离散的动作,例如在两个备选方案之间的选择,而不是连续的动作范围。我们还考虑由多个离散事件组成的试验,并使用整数时间变量T = 0;1;2;:::在试验中指示步骤。因此,我们也使用离散权重更新规则(如我们在第8章中讨论的用于监督学习的规则),而不是用微分方程描述的学习规则。

相关文章

  • 计算神经科学小册子翻译 -- 原作 Dyan

    9 分类条件和增强学习 9.1 简介 动物在相关奖励或惩罚的基础上,在特定刺激下学习适当行动的能力是行为心理学关注...

  • 计算神经科学小册子翻译 -- 原作 Dyan

    9 分类条件和增强学习 9.2 经典条件作用 经典调节涉及广泛的不同的训练和测试程序和丰富的行为现象集。我...

  • 神经网络中的线性代数

    什么是神经网络? 神经网络是神经科学的一个重要研究领域。对于计算机科学家、工程师或纯粹神经科学领域之外的其他专业人...

  • 动力学的世界观(一)

    原作者:许铁微信二维码作者简介:巴黎高师理论物理与复杂系统硕士,以色列理工大学计算神经科学在读博士原发平台:混沌巡...

  • 动力学的世界观(二)

    原作者:许铁微信二维码作者简介:巴黎高师理论物理与复杂系统硕士,以色列理工大学计算神经科学在读博士原发平台:混沌巡...

  • 动力学的世界观(三)

    原作者:许铁微信二维码作者简介:巴黎高师理论物理与复杂系统硕士,以色列理工大学计算神经科学在读博士原发平台:混沌巡...

  • GeeksForGeeks 翻译计划 | ApacheCN

    GeeksForGeeks 是计算机科学百科,涵盖了所有计算机科学核心课程。 本项目的目标是翻译 GeeksFor...

  • 致富的科学(上)

    致富的科学 原作者:华莱士·D·瓦特斯(WallaceD.Wattles) 翻译:麦享享 附注:原书出版于1910...

  • 论文《神经最佳伙伴:稀疏跨域通信》的解释:跨域

    翻译原作者如图水印 : 头条号 不靠谱的猫 在这篇文章中,我试图对Kfir Aberman等人的论文《神经最佳伙伴...

  • 书单|

    1.卷积神经网络的Python实现2.计算机科学精粹3.Python科学计算最佳实践5.人人都是数据分析师 201...

网友评论

      本文标题:计算神经科学小册子翻译 -- 原作 Dyan

      本文链接:https://www.haomeiwen.com/subject/ngejgxtx.html