Somethingv2
和somethingv1相比类别不变,仍然是174类,对比v1改进点有这么几点:
1.数据集数量翻了一倍左右(220,847 videos (vs. 108.499 in V1) )
2.新添加了目标注释,比如说把什么东西从左移到右边,这次就直接多了些标注,标注为“把一个杯子从左边移到右边”这样子。总共有318,572个注释包含30,408个唯一对象。
3.这次的train,validation,test和label标注直接做成了json文件,v1版的则是csv文件,需要自己再重新生成json文件,不过当时做的时候也好做。这次直接弄好做成json文件反而不利于寻找单一需要测试的文件。
4.视频质量有所提升(这个因为数据集还没有下载下来,暂且看不出)
5.现在下载的数据格式是使用VP9作为编码的Webm(V1中给出的是JPG图像),这个反而还要多做一步拆帧的工作,对比v1而言这一部分工作量又要我们自己在本地做一遍了。好处是可以按照自己的意愿设置采样率,坏处是麻烦。
总体来说,somethingv2这个版本的数据集实际上能做的功能还是action-recognition,新添加的annotaiton从train和validation里看到something替换到了不同的对应的物体。
目前排行榜上刷到最高的识别率top1在66.1%.
SLAC(现已叫HACS)
这个数据集全称是:human Action Clips and Segments Datasetfor Recognition and Temporal Localization。这个数据就从名字上看可以做temporal的localization,当然recognition这个基础也是可以做的。这个数据集本身也包含这么两类标注,第一类是做action recognition的常规标注,包含从504000个视频中标注的2秒左右的1.55M个clips。第二类是做temporal localization的,从50000个untrimmed的视频中标注temporal的边界。类别共有200类,专注动作本身。这个数据集最大贡献就是把做两个工作的标注都整合到了一起。并且自称他做出的clips叫做HACS clips。
Moments-in-time
这个数据集确实很大,但是每一个视频都是短视频,总视频数量在一百万。论文开头写的比较优雅,“美好的事物总是转瞬即逝的”。这个数据集有339个类别。主要还是做action recognition的,每一个视频都比较短,包含的就是类别中的主要信息。但是官网论文给出的准确度十分低,推测是因为包含的视频太杂了,又有真人的又有动画的,机器一时间接受不了。这个官方给的比赛按照我们现有条件只能做slim版的。
这个数据集在官网还打出了用cam方法打出的热力图,这个我们曾经用2d的网络调试过resnet50的imagenet预训练模型,后期可以研究下cam图是怎么转到视频上的。换句话说就是后面可视化可以用这种方式调优。
EPIC-kitchens
这个数据集主要是在厨房里的一些动作,这个数据集本身比较大,包含的label中既有action的classes,也包含object的classes。大概有55个小时的视频时长。ActivityNet官网今年刚开始办这个数据集的比赛,包含三项任务,action recogniton、action anticipation和objects detection。其中action anticipation是做预测的,暂时没有接触过这一块。这个数据集能做的方向确实挺广的。
网友评论