【数据】短视频识别，都有那些行业标准？

作者: 有三AI | 来源:发表于2019-01-16 08:12 被阅读12次

【数据】短视频识别，都有那些行业标准？
使用xgboost多分类模型识别手写数字
数据集
人工智能研究方向
《人工智能基础》12/91天阅读
技能 | 三次简化一张图: 一招理解LSTM/GRU门控机制
08组-《Quo Vadis, Action Recogniti
android使用camera2的Api 实现拍照录视频的功能
语音识别如何快速实现？简单快捷小妙招，你一定要掌握
reshape2数据汇总

本文首发于微信公众号《与有三学AI》

【数据】短视频识别，都有那些行业标准？

当前深度学习中静态图像识别已经做得相当好了，让AI理解视频内容则更加困难，是当前学术界和工业界的研究热点，本文将介绍一些短视频类数据集。

01AI Challenger 全球AI挑战赛

官网地址:https://challenger.ai/，从2017年开始。

2018年全球AI挑战赛是由创新工场、搜狗、美团点评、美图联合创办的，里面包括多个NLP、计算机视觉项目，其中就有 ’短视频实时分类竞赛’。

竞赛提供的专门的短视频数据集共包含20万条短视频，涵盖舞蹈、健身、唱歌等63类流行元素。大部分视频的长度是在5-15秒。并且视频是多标签分类体系，标签信息包含视频主体、场景、动作等多个维度，标注信息将尽量包含视频中展现的所有元素，每条视频有1-3个标签。此数据集分为训练集（120K）、验证集（30K）、测试集A（30K）、测试集B（30K）。

相较于传统视频数据集来说，该数据集更具特色。

1. 从视频来源上讲，此数据集视频采集设备多为手机且比例多为竖屏；

2. 从视频形式上讲，数据集中的很多视频使用了短视频特效，并包含更多视频快进、剪辑等操作；

3. 从视频内容上讲，数据集包含了更多人物中心化的自拍短视频内容。所有这些特点使本数据集在体现以用户为导向的内容生产趋势上得以先人一步。

4. 预览:左图是:宝宝+弹钢琴，右图:宝宝+跳舞

02HMDB

数据集链接:

http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#Downloads，发布于2011年

HMDB是布朗大学研究小组的项目，是一个人类动作视频数据集。里面的数据大部分来自于电影，小部分来自于开源数据库，来源地址如Prelinger存档、YouTube、google视频等等，包含6849段视频剪辑，51个人类动作类别，每类动作至少包含 101段视频剪辑,分辨率为320*240，共2G。动作主要分为五类：

1. 面部动作:微笑、大笑、咀嚼。

2. 面部操作与对象操作：吸烟、吃、喝。

3. 一般的身体动作：拍手、跳、倒立

4. 与对象交互动作:抽出宝剑、运球、高尔夫。

5. 人体动作：击剑、拥抱、亲吻。

03UCF101

数据集链接:http://crcv.ucf.edu/data/UCF101.php，发布于2012年。

UCF101是目前动作类别数、样本数最多的数据集之一，主要包括在自然环境下101种人类动作类别如跳、拍手、打羽毛球等等,也正因为类别众多加上UCF101在动作的采集上具有非常大的多样性，如相机运行、外观变化、姿态变化、物体比例变化、背景变化等等，所以也成为了当前难度最高的动作类数据集挑战之一。该数据集有13000个剪辑、总共27个小时的视频。视频都来自于Youtube上用户上传视频，其中主要包含5大类动作:人与物体互动、人体动作、人与人互动、乐器演奏、体育运动。

04ActivityNet

数据集链接:

http://www.merl.com/demos/merl-shopping-dataset，发布于2016年。

ActivityNet是一个大规模行为识别竞赛，自CVPR2016开始，今年是该竞赛的第三届。在最新1.4版本中，ActivityNet提供了203个活动类别的样本，每个类平均有137个未修剪的视频，总共有20K多个Youtube视频，其中训练包括10K多个视频，验证与测试各包含5K个视频。每个视频平均有1.41个行为标注，共计849个小时视频时长。

以2017年竞赛为例(使用1.3版本)在ActivityNet将进行5项不同的任务，分别是

1.untrimmed video classification (ActivityNet dataset)

2.trimmed video classification (Kinetics dataset)

3.temporal action proposal (ActivityNet dataset)

4.temporal action localization (ActivityNet dataset)

5.Dense-Captioning Events in Videos (ActivityNet Captions)

该竞赛总共有五个任务，数据来源于三个不同的公开数据集:ActivityNet，ActivityNet Captions 和Kinetics，其中基于ActivityNet数据集的三个任务侧重于proposal，而另外两项更加侧重于localization。感兴趣的同学可以链接去了解一下。

05YouTube-8M

数据集链接:https://research.google.com/youtube8m/，发布于2016年。

YouTube-8M是Google公布的一个大型的视频数据集，这个数据集在最开始包含8M个YouTube视频链接，此后经过不断清洗筛选在今年5月份已经缩短到了6.1M个视频，视频的长度大于两分钟小于9分钟。这些视频集进行了video-level(视频层级)的标注，平均每个视频含有3.0个标签，标注为3862种Knowledge Graph entities(知识图谱类别)，包括粗粒度和细粒度类别，这些类别已被半自动策划并由3个评估者人工验证视频的识别度。每个类别至少有200个相应的视频示例，平均有3552个训练视频。

其中三个最受欢迎的类别是游戏、视频游戏和车辆分别用780K,540K和410K个训练样例。最少见的是Cylinder和Mortar，分别有123和127个训练视频。

这些实体分为24个高级垂直行业，最常见的是艺术和娱乐(33K训练视频)，最不常见的是财务（6K训练视频）。