强化学习模型的定义:
强化学习模型是一种基于行为反馈机制的自适应学习方法,个体通过不断尝试不同的行动,并根据这些行动在过去获得的奖励(收益)来调整各个行动的权重。
权重较大的行动会更频繁的被选择,最终学习者趋向于选择那些能够带来最高奖励的行动。
今天要用到两个公式,一是概率公式,二是权重调整公式。
概率公式:
P(K)=w(K)/w(A)+w(B)+w(C)+……w(N)
权重调整公式:
w(K)=w(K)+γ×P(K)×(π(K)-A)
其中:γ是调整速率
π是奖励值
A是期望值
今天的作业是:请阐述构建自己专属学习系统强化学习模型的具体内容是什么?
静修的个人专属学习系统为“静修家庭教育训练营”。
第一步,确定四种学习方法的初始权重
A.阅读专业书籍和文献 —— W(A)=25
B.参与在线课程和研讨会——W(B)=25分
C.进行实际案例分析15分——W(C)=25分
D.进行项目实践25分 ——W(D)=25分
第二步,第一次学习,采取A学习方式,即阅读专业书籍和文献。感觉收获很大,为这次学习赋20分的奖励分(π(A)=20),我的渴望水平A设定为15。
第一次选择A的学习方法概率为:P(A)=25/100=0.25
假设调整速率γ为1,则第一次采用A方法学习后的权重为:
w(K)=w(K)+γ×P(K)×(π(K)-A)
=25+1×0.25×(20-15)
=26.25
也就是说第一次学习,把阅读专业书籍和文献这种方法的权重调整为26.25。
第三步,第二次学习,采取B学习方式,即参与在线课程和研讨会。为这次学习赋15分的奖励分(π(B)=25),我的渴望水平A设定为15。
第二次选择B的学习方法概率为:P(B)=25/100=0.25
假设调整速率γ为1,则第二次采用A方法学习后的权重为:
w(K)=w(K)+γ×P(K)×(π(K)-A)
=25+1×0.25×(15-15)
=25
即通过第二次学习,由于奖励等于渴望水平,方案B的权重保持不变。
第四步,第三次学习,采取C学习方式,即进行实际案例分析。为这次学习赋12分的奖励分(π(C)=12),我的渴望水平A设定为15。
第三次选择C的学习方法概率为:P(C)=25/100=0.25
假设调整速率γ为1,则第三次采用C方法学习后的权重为:
w(C)=w(C)+γ×P(C)×(π(C)-A)
=25+1×0.25×(12-15)
=24.25
即通过第三次学习,方案C的权重为24.25。
第五步,第四次学习,采取D学习方式,即进行项目实践。为这次学习赋18分的奖励分(π(D)=18),我的渴望水平A设定为15。
第四次选择D的学习方法概率为:P(D)=25/100=0.25
假设调整速率γ为1,则第四次采用D方法学习后的权重为:
w(D)=w(D)+γ×P(D)×(π(D)-A)
=25+1×0.25×(18-15)
=25.75
即通过第四次学习,方案D的权重为25.25。
第六步,后续学习与长期趋势
在接下来的学习中,我不断尝试这四种方法,并根据每次学习效果调整它们的权重。我逐渐方发现,方法A和方法D通常能够为我提供更系统和全面的知识,同时项目的实践锻炼对于知识有效性的反馈非常重要,所以说方法A和方法D的权重也越来越大,我也越来越倾向于选择阅读专业书籍和文献,包括实践锻炼的方式来提高“静修家庭教育训练营”知识体系专业性和实用性。
网友评论