未经允许,不得转载,谢谢~~
主要记录一下对于HMDB数据集的一些主要说明;
HMDB-51是action recognition方向用于判断视频分类模型准确度的一个很经典常用的benchmark。
image.png一 基本情况
- 关于人类活动的数据集;
- 拥有51 distinct action classes;
- 每个类都至少包含101个clips;
- 共计6766个video clips;
二 HMDB-51数据集介绍
2.1 数据集采集
- 数据来源:电影,一些现有的公开数据集,其他在网上可以获取到的资源(YouTube,Google videos);
- 从一共超过60类总挑选出每类都包含101个视频以上的51个类别;
- 视频分类(5大类):
- 常见的面部动作(smile,laugh,chew,talk)
- 有其他东西配合的面部动作(smoke,eat,drink)
- 常见的肢体动作(climb,dive,jump)
- 有其他东西配合的肢体动作(brush hair,catch,draw sword)
- 人类交互之间的肢体动作(hug,kiss,shake hands)
2.2 数据标注
与一般的视频动作识别数据的不同之处在于除了标注每个clip的label外,还手工标注了很多额外的信息:
- visible body parts (身体的哪些部分是可见的,例如头部,上半身,还是完整的)
- camera motion(相机是运动的还是静止拍摄的)
- camera view point(相机拍摄角度是前面,后面还是侧面)
- video quality(视频质量的好坏,可以简单理解为清晰度,例good表示能够清晰的看见手指和眼睛这样的小部位)
- the number of people involved (视频中包含了多少个人)
具体的分布可以看一下这张图:
2.3 训练集和测试集的产生
- 分成3个不同的training and testing splits;
- 保证每个对应的training中和testing中不会同时出现来自同一个视频的片段;
- 相机角度、视频质量等会相对均衡地分布在traing和testing这两个集合中;
- 对于每个类别,都会产生70个相应的training clips和30个testing clips,已达到7/3的比例;
2.4 视频归一化处理
- 为了包含数据集中视频大小和帧率的一致性;
- height of frame = 240;
- 保持原始的长宽比,根据height来得到宽度;
- 帧率=30 fps
- 视频压缩使用的是
ffmpeg
库中的DivX 5.0 codec
剩下对视频数据集使用没有用的部分就先不整理了~~~
网友评论