DeepLoco: Dynamic Locomotion Skills Using Hierarchical Deep Reinforcement Learning
5.4 LLC Network
图5. LLC网络的示意图。输入包含状态和目标。第一层应用双线性相位变换,并且所得到的特征由一系列完全连接的层处理。输出层产生动作,它指定每个关节的PD目标。
LLC网络的示意图如图5所示.LLC由4层神经网络表示,它接收和作为输入,并输出动作分布的平均值。第一层将双线性相位变换应用于输入,然后由两个完全连接的层处理得到的双线性特征,每个层具有512和256个单元。 ReLU激活功能适用于两个隐藏层[Nair和Hinton 2010]。最后,线性输出层计算平均动作。 LLC值函数由类似网络建模,但在输出层中具有单个线性单元。每个LLC网络具有大约参数。
网友评论