motivation
- 对于不同的视频序列,挑出最有代表性的帧的方法是不同的,因此,本文提出用深度增强学习来将帧的选择模拟为一个不断进步的progressive process。
- 强化学习是通过优化选择actions的policy来最大化agent从environment所获得的rewards。文章中说至今为止,在动作识别领域,增强学习的应用还不多。
方法
- 本文的人体关节邻接矩阵是这么设计的:如果两个关节有连接,就在邻接矩阵相应位置标记为α,称之为intrinsic dependencies,否则标记为β,称之为extrinsic dependencies。此外关节没有self connection,是邻接矩阵对角元素全是0.
- 思路简单概括为:
1.输入是一段视频,视频中有多个帧
2.用RL的算法来选择关键帧(本文是FDNet)
3.再把选取到的关键帧输入到GCNN网络,得到这个vedio的标签
定义问题的决策链
- 已知输入的是含有多个帧的一段视频,但我们不要全部用到全部帧数
- 我们想提取关键帧,设定提取的关键帧数为m,把这m个关键帧按序号排序,每一个action表示这些关键帧是要向左移动,向右移动或是保持当前位置。
-
设定迭代步数,当程序迭代步数达到设定值时,就停止程序;
State and Action
State
- 针对选关键帧这个MDP问题,状态S可以表示为: {Sa,Sb}
- Sa=[F,M] 也是由两部分组成的。F表示整个视频的信息, 它张量的形状为:f×N×3。 其中f表示视频的所有帧数,N表示每一帧中的骨架模型的节点数,3表示每一个骨架节点的3D坐标。
- M就表示所有被提取的关键帧信息,用一个形如m×N×3的张量表示,其中m表示关键帧的数目.
4.Sb one-hot, 它对应到整个视频的每一帧,如果对应的元素值为1,那么说明该帧被提取为关键帧,其余则为0
Action
action的动作由FDNet输出
action的定义比较简单:
1.帧向左移动
2.帧向右移动
3.帧保持不动
网友评论