## 第26章 学习模型
学习模型介于理性选择模型与基于规则的模型之间。
- 理性选择模型假设人们会审慎考虑所处的环境和要完成的博弈,然后采取最优行动;
- 基于规则的模型则直接根据规则来指定行动。
学习模型假设人们会遵循规则,但是,正是这些规则使行为能够发生改变。
- 在某些情况下,行为会趋向最优行为;
- 在这些情况下,也可能生成循环或复杂的动态。
>强化学习模型
假设一个由N个备选方案组成的集合{A,B,C,D,…,N}、与各备选方案对应的奖励的集合{π(A),π(B),π(C),π(D),…,π(N)},以及一个严格为正的权重的集合{w(A),w(B),w(C),w(D),…,w(N)}。那么,选择备选方案K的概率如下:
在选中了备选方案K之后,w(K)会增大γ×P(K)×(π(K)-A),其中γ>0等于调整速率(rate of adjustment),A<maxKπ(K)等于渴望水平。
美国心理学家爱德华桑代克,用实验证明了:奖励比惩罚更有利于学习。
桑代克通过小猫的实验,发现两个规律。
- 第一规律,当小猫完成一个正确的动作后,你讲理的越多,他学的越快;
第二规律,如果你给小猫一个超出预期的奖励,他就学的更快。
网友评论