a-c

作者: 小石头在长大 | 来源:发表于2022-04-08 16:46 被阅读0次

1、rl的要素

状态、动作、环境、奖励、价值函数

2、SARSA

   1)初始化状态S

   2)在状态S执行动作A,得到新状态S1和奖励R

   3)在状态S1用贪婪法选择新动作A1

   4)更新价值函数

3、qlearn

   1)初始化状态S

   2)用ϵ−贪婪法在当前状态S选择出动作A

   3)在状态S执行当前动作A,得到新状态S′和奖励R

   4)更新价值函数Q(S,A)

4、状态价值函数

qlearn和sarsa只限于状态有限的情况。

为了解决状态量大的情况,可以定义状态价值函数,输入为状态,输出为状态的价值。同理,可以定义动作价值函数,输入为状态或动作,输出为动作的价值,这里隐含动作的个数是离散值。

5、dqn

   1)初始化S为当前状态序列的第一个状态, 拿到其特征向量ϕ(S)

   2)在Q网络中使用ϕ(S)作为输入,得到Q网络的所有动作对应的Q值输出。用ϵ−贪婪法在当前Q值输出中选择对应的动作A

   3)在状态S执行当前动作A,得到新状态S′对应的特征向量ϕ(S′)和奖励ϕ(S′)和奖励R$,是否终止状态is_end

   4)将{ϕ(S),A,R,ϕ(S′),is_end}{ϕ(S),A,R,ϕ(S′),is_end}这个五元组存入经验回放集合DD

   5)S=S′

   6)从经验回放集合DD中采样mm个样本{ϕ(Sj),Aj,Rj,ϕ(S′j),is_endj},j=1,2.,,,m{ϕ(Sj),Aj,Rj,ϕ(Sj′),is_endj},j=1,2.,,,m,计算当前目标Q值yjyj:yj={RjRj+γmaxa′Q(ϕ(S′j),A′j,w)is_endjistrueis_endjisfalseyj={Rjis_endjistrueRj+γmaxa′Q(ϕ(Sj′),Aj′,w)is_endjisfalse

   7)使用均方差损失函数1m∑j=1m(yj−Q(ϕ(Sj),Aj,w))21m∑j=1m(yj−Q(ϕ(Sj),Aj,w))2,通过神经网络的梯度反向传播来更新Q网络的所有参数ww

   8)如果S′是终止状态,当前轮迭代完毕,否则转到步骤2)

相关文章

  • a-c

    1、rl的要素 状态、动作、环境、奖励、价值函数 2、SARSA 1)初始化状态S 2)在状态S执行动作A,得...

  • 正则表达式以及re库

    正则表达式 . 可以代表任意字符(换行、空格、翻页符除外)^a 表示a字母开头[^a-c] 表示该字符非a\b...

  • 巴黎塔:A-C 座原则

    培养一种对三维世界中某一现实事物的状态微层引导 创造大量的引导者、让人们在各种不同的角度中给微层以总结、深入带领体...

  • Excel

    取消隐藏列 (1)若隐藏B列,需选中A-C列(2)格式-隐藏和取消隐藏-取消隐藏列 (3)2步骤也可直接右键-取消...

  • vue中组件之间的通信

    组件可以有以下几种关系: A-B、B-C、B-D都是父子关系 C-D是兄弟关系 A-C、A-D是隔代关系 不同使用...

  • 刘璟泽-3.30

    A-C可参考iphone派.富士康的机器 1.电源表,区分电池问题和主板问题 2.外屏坏有的型号可以放在c,苹果6...

  • 妹子想用公众号里的某张欧巴照片做封面,你居然做不到?

    一、微信公众号的图片不能在电脑上直接右键保存 第一次遇到这个问题时肯定是懵(A-C中间)的。效果就像这样: 直接点...

  • 孩子,为什么得语文者得天下

    昨天晚上我无意中看到孩子的一道数学题:由abc三条边组成的三角形。当(a-b)(b-c)(a-c)=0,这个三...

  • 阿邪留法生活 第4篇 PART A-C

    废话连篇"第四篇章 PART A (建议打印阅览)(开1024*768分辨率) [以前的文章可以在http://w...

  • 🌹丰减减肥,暴涨罩杯A-C,瘦38斤️❗❗

    不知道有没有小仙女跟我身材是一样的,有点微胖,还是个平胸,整个人还看起来特别臃肿,这样的我在这个看脸的时代就很不吃...

网友评论

      本文标题:a-c

      本文链接:https://www.haomeiwen.com/subject/cxepmltx.html