美文网首页
日更-《模型思维》32

日更-《模型思维》32

作者: liumw1203 | 来源:发表于2023-01-27 07:10 被阅读0次

    ## 第26章 学习模型

    学习模型介于理性选择模型与基于规则的模型之间。

    - 理性选择模型假设人们会审慎考虑所处的环境和要完成的博弈,然后采取最优行动;

    - 基于规则的模型则直接根据规则来指定行动。

    学习模型假设人们会遵循规则,但是,正是这些规则使行为能够发生改变。

    - 在某些情况下,行为会趋向最优行为;

    - 在这些情况下,也可能生成循环或复杂的动态。

    >强化学习模型

    假设一个由N个备选方案组成的集合{A,B,C,D,…,N}、与各备选方案对应的奖励的集合{π(A),π(B),π(C),π(D),…,π(N)},以及一个严格为正的权重的集合{w(A),w(B),w(C),w(D),…,w(N)}。那么,选择备选方案K的概率如下:

    在选中了备选方案K之后,w(K)会增大γ×P(K)×(π(K)-A),其中γ>0等于调整速率(rate of adjustment),A<maxKπ(K)等于渴望水平。

    美国心理学家爱德华桑代克,用实验证明了:奖励比惩罚更有利于学习。

    桑代克通过小猫的实验,发现两个规律。

    - 第一规律,当小猫完成一个正确的动作后,你讲理的越多,他学的越快;

    第二规律,如果你给小猫一个超出预期的奖励,他就学的更快。

    相关文章

      网友评论

          本文标题:日更-《模型思维》32

          本文链接:https://www.haomeiwen.com/subject/vymshdtx.html