美文网首页
2019-01-06

2019-01-06

作者: 肥宅快乐夫 | 来源:发表于2019-01-06 23:20 被阅读0次

    DeepLoco: Dynamic Locomotion Skills Using Hierarchical Deep Reinforcement Learning

    5.4 LLC Network

    图5. LLC网络的示意图。输入包含状态s_L和目标g_L。第一层应用双线性相位变换,并且所得到的特征由一系列完全连接的层处理。输出层产生动作a_L,它指定每个关节的PD目标。

    LLC网络的示意图如图5所示.LLC由4层神经网络表示,它接收s_Lg_L作为输入,并输出动作分布的平均值---。第一层将双线性相位变换应用于输入,然后由两个完全连接的层处理得到的双线性特征,每个层具有512和256个单元。 ReLU激活功能适用于两个隐藏层[Nair和Hinton 2010]。最后,线性输出层计算平均动作。 LLC值函数a由类似网络建模,但在输出层中具有单个线性单元。每个LLC网络具有大约500k参数。

    相关文章

      网友评论

          本文标题:2019-01-06

          本文链接:https://www.haomeiwen.com/subject/vvaerqtx.html