美文网首页人工智能人工智能与教育互联网科技
谷歌发布新数据集,教机器辨识人类动作

谷歌发布新数据集,教机器辨识人类动作

作者: 智能观 | 来源:发表于2017-11-10 10:28 被阅读9次

【智能观】日新月异的AI又给我们带来了AVA,教机器理解视频中的人类动作是计算机视觉的一个基本研究课题,但识别人类动作仍然是一个巨大的挑战。尽管有许多基准数据集(如 UCF101、ActivityNet 和 DeepMind 的 Kinetics)采用图像分类标记模式,并为数据集中的每个视频或视频剪辑分配一个标签,但对于有多人执行不同动作的复杂场景,还没有相应的数据集。这次谷歌发布的AVA诞生于“原子视觉动作”,是一个全新的数据集,为扩展视频序列中的每个人提供多个动作标签。AVA 由 YouTube 中公开视频的网址组成,注解了一组 80 种时空局部化的原子动作(如“走”、“踢(物体)”、“握手”等),产生了 5.76 万个视频片段、9.6 万个标记动作执行人以及总共 21 万个动作标签。

现在人工智能又多了一项新资源来理解人类。

近日,拥有YouTube的谷歌公开了一个新的电影剪辑数据集,旨在教机器辨识人类的动作。这份数据集被称为AVA,或者“原子视觉动作”。

数据集里的视频对于人类来说并不是什么特别的东西,只不过是YouTube上人们喝水或烹饪的三秒钟剪辑。但每个剪辑都绑定了一个文件,文件采用机器学习算法标记了视频画面上的人或物,他们的姿势描述,以及他们是否在与另一个人或物体交流。当算法标记出视频中的狗,就会训练AI认识狗。

当视频中不止一个人在做事时,每个人都会有自己的标签。通过这种方式,算法就可以学习一些必要的动作,如两个人握手之类。

谷歌数据集中的标签

这项技术可以帮助谷歌每天分析YouTube上的视频,也可以通过分析你看的视频内容,投放更精准的目标广告,或用于视频内容审核分级。谷歌最后的目的是帮计算机实现社会视觉智能,其研究人员在一份相关的研究论文中写道,这意味着机器可以“理解人类正在做什么,他们下一步可能做什么,以及他们正在努力达到什么目标等”。

AVA 的原子动作标签分布,x 轴所示标签只是词汇表的一部分                                            AVA 中频繁共同出现的动作对

AVA数据集有57,600个标签视频,详细描述了80个动作。像站立、说话、听和走路这样的简单动作在数据集中出现得最多,每一个都携带超过10000个标签。该团队在一份研究报告中称,使用电影片段确实会给他们的机器学习带来一些偏见,因为电影制作有“自己的行规”,有些动作也会被戏剧化。

“我们并不认为这些数据是完美的,”研究人员在相关论文中写道,“但这比使用各种用户生成的内容,如动物表演视频、DIY教学视频、儿童生日派对之类的活动等要好得多。”

在这篇论文中,研究者试图尽可能多地找到不同国家的代表人物来获取数据,但他们没有详细说明数据集可能会因种族或性别而产生偏差。

附数据集地址:

https://research.google.com/ava/explore.html

—完—

来源:Flipboard

作者:Dave Gershgorn

智能观 编译

想知道AI加教育领域有哪些最新研究成果?

想要AI领域更多的干货?

想了解更多专家的“智能观”?

请在对话界面点击“找找看”,去获取你想要的内容吧。

相关文章

网友评论

    本文标题:谷歌发布新数据集,教机器辨识人类动作

    本文链接:https://www.haomeiwen.com/subject/vkzvmxtx.html