视频数据集研究

作者: 黑恶歌王 | 来源:发表于2019-03-28 17:28 被阅读0次

视频数据集研究
常用数据集介绍及转换
视频公开数据集
回归分析－python实践
临床试验CRF中Form介绍10：Protocol Deviat
MNIST | EMINST | Fashion-MNIST数据
抖音短视频数据集上线
机器学习iris数据集导入
Waymo数据集解析
08组-《Quo Vadis, Action Recogniti

Somethingv2

和somethingv1相比类别不变，仍然是174类，对比v1改进点有这么几点：
1.数据集数量翻了一倍左右（220,847 videos (vs. 108.499 in V1) ）
2.新添加了目标注释，比如说把什么东西从左移到右边，这次就直接多了些标注，标注为“把一个杯子从左边移到右边”这样子。总共有318,572个注释包含30,408个唯一对象。
3.这次的train，validation，test和label标注直接做成了json文件，v1版的则是csv文件，需要自己再重新生成json文件，不过当时做的时候也好做。这次直接弄好做成json文件反而不利于寻找单一需要测试的文件。
4.视频质量有所提升（这个因为数据集还没有下载下来，暂且看不出）
5.现在下载的数据格式是使用VP9作为编码的Webm（V1中给出的是JPG图像），这个反而还要多做一步拆帧的工作，对比v1而言这一部分工作量又要我们自己在本地做一遍了。好处是可以按照自己的意愿设置采样率，坏处是麻烦。
总体来说，somethingv2这个版本的数据集实际上能做的功能还是action-recognition，新添加的annotaiton从train和validation里看到something替换到了不同的对应的物体。
目前排行榜上刷到最高的识别率top1在66.1%.

SLAC(现已叫HACS)

这个数据集全称是：human Action Clips and Segments Datasetfor Recognition and Temporal Localization。这个数据就从名字上看可以做temporal的localization，当然recognition这个基础也是可以做的。这个数据集本身也包含这么两类标注，第一类是做action recognition的常规标注，包含从504000个视频中标注的2秒左右的1.55M个clips。第二类是做temporal localization的，从50000个untrimmed的视频中标注temporal的边界。类别共有200类，专注动作本身。这个数据集最大贡献就是把做两个工作的标注都整合到了一起。并且自称他做出的clips叫做HACS clips。

Moments-in-time

这个数据集确实很大，但是每一个视频都是短视频，总视频数量在一百万。论文开头写的比较优雅，“美好的事物总是转瞬即逝的”。这个数据集有339个类别。主要还是做action recognition的，每一个视频都比较短，包含的就是类别中的主要信息。但是官网论文给出的准确度十分低，推测是因为包含的视频太杂了，又有真人的又有动画的，机器一时间接受不了。这个官方给的比赛按照我们现有条件只能做slim版的。
这个数据集在官网还打出了用cam方法打出的热力图，这个我们曾经用2d的网络调试过resnet50的imagenet预训练模型，后期可以研究下cam图是怎么转到视频上的。换句话说就是后面可视化可以用这种方式调优。

EPIC-kitchens

这个数据集主要是在厨房里的一些动作，这个数据集本身比较大，包含的label中既有action的classes，也包含object的classes。大概有55个小时的视频时长。ActivityNet官网今年刚开始办这个数据集的比赛，包含三项任务，action recogniton、action anticipation和objects detection。其中action anticipation是做预测的，暂时没有接触过这一块。这个数据集能做的方向确实挺广的。

网友评论

本文标题：视频数据集研究

本文链接：https://www.haomeiwen.com/subject/ebjcbqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

视频数据集研究

Somethingv2

SLAC(现已叫HACS)

Moments-in-time

EPIC-kitchens

相关文章