人工智能在视频上的运用首要一个课题是视频了解,极力解决“语义距离”的问题,其间包含了:
视频结构化分析:就是对视频进行帧、超帧、镜头、场景、故事等切开,然后在多个层次上进行处理和表达。
政策检测和跟踪:如车辆跟踪,多是运用在安防领域。
人物辨认:辨认出视频中出现的人物。
动作辨认:Activity Recognition,辨认出视频中人物的动作。
情感语义分析:即观众在赏识某段视频时会发生什么样的心思体会。
短视频、直播视频中大部分承载的是人物+场景+动作+语音的内容信息,如图1所示,如何用有用的特征对其内容进行表达是进行该类视频了解的要害。
传统的手艺特征有一大堆,现在效果较好的是iDT(Improved Dense Trajectories) ,在这儿就不加谈论了。深度学习对图像内容的表达能力十分不错,在视频的内容表达上也有相应的方法。下面介绍最近几年干流的几种技术方法。
依据单帧的辨认方法
一种最直接的方法就是将视频进行截帧,然后依据图像粒度(单帧)的进行deep learninig 表达, 如图2所示,视频的某一帧通过网络获得一个辨认效果。图2为一个典型的CNN网络,赤色矩形是卷积层,绿色是归一化层,蓝色是池化层 ,黄色是全联接层。但是一张图相对整个视频是很小的一部分,特别当这帧图没有那么的具有区分度,或是一些和视频主题无关的图像,则会让分类器摸不着头脑。因而,学习视频时间域上的表达是前进视频辨认的首要因素。当然,这在运动性强的视频上才有区分度,在较停止的视频上只能靠图像的特征了。
这儿写图片描绘
依据CNN扩展网络的辨认方法
它的全体思路是在CNN结构中寻找时间域上的某个方式来表达部分运动信息,然后获得全体辨认性能的前进。图3是网络结构,它总共有三层,在第一层对10帧 (大约三分之一秒)图像序列进行MxNx3xT的卷积(其间 MxN是图像的分辩率,3是图像的3个颜色通道,T取4,是参与计算的帧数,然后构成在时间轴上4个照应),在第2、3层上进行T=2的时间卷积,那么在第3层包含了这10帧图片的一切的时空信息。该网络在不同时间上的同一层网络参数是同享参数的。
它的全体精度在相对单帧前进了2%左右,特别在运动丰厚的视频,如摔角、爬杆等强运动视频类型中有较大崎岖的前进,这然后也证明了特征中运动信息对辨认是有贡献的。在实现时,这个网络架构可以参与多分辩的处理方法,可以前进速度。
这儿写图片描绘
双路CNN的辨认方法
这个其实就是两个独立的神经网络了,终究再把两个模型的效果均匀一下。上面一个就是一般的单帧的CNN,而且文章傍边提到了,这个CNN是在 ImageNet的数据上pre-train,然后在视频数据上对终究一层进行调参。下面的一个CNN网络,就是把连续几帧的光流叠起来作为CNN的输入。 其他,它运用multi-task learning来战胜数据量缺少的问题。其实就是CNN的终究一层连到多个softmax的层上,对应不同的数据集,这样就可以在多个数据集上进行 multi-task learning。
网友评论