To Click or Not To Click: Automatic Selection of Beautiful Thumbnails from Videos
ICKM 2016 Yale Song
Abstract
- 1)研究目的:高质量视频封面对于影响用户观看网络视频的重要性
- 2)成果简介:构建了这样的系统——综合画面的吸引力和对整个视频的代表度来进行视频摘要的生成(high relevance to video content and superior aesthetic quality)
- 3)有效性验证:基于1118个视频的数据集,6种不同的摘要生成方法,由专家判断哪种由计算机生成
- 4)对实验结果的分析:哪些美学特征对最终的结果影响较大(the selection of a good thumbnail is highly correlated with objective visual quality metrics, such as the frame texture and sharpness)
Introduction
对Abstract的进一步丰富,内容的组织逻辑和Abstract相同,结构为漏斗型。
- 1)第一段给出较为详细的研究背景,用三篇参考文献佐证高质量封面的重要性
- 2)第二段提出问题,需要有一种自动高效生成视频封面的方法,正式抛出本研究的目标——自动提取最适合作为视频缩略图的帧
- 3)第三、四段给出成果的简介,先写原理再给出部分实现细节的描述,最后加上和已有方法的对比,解决了哪些问题或有哪些创新和优点——同时考虑了画面的吸引力和对整个视频的代表度
- 4)第五段给出本研究的核心优点——需要的算力极小且高效,可以作为更复杂系统的模块进行扩展
- 5)第六段给出本研究的验证方法,同样引用参考文献对比前人的成果,证明本方法更为可靠
- 6)第七段给出实验结论中得到的额外信息——哪些美学特征对最终的结果影响较大
- 8)第八段给出本文的核心贡献以及github链接
Related Work
本研究领域现有方法的综述,目的是映衬出本文的创新点
总结本文涉及到的研究领域——thumbnail selection, video highlighting and summarization, computational aesthetics
- Thumbnail selection:根据keyword来从现有的数据库中获得某类封面的特征,再从原视频中提取,总结基本上都是从代表性出发,没有考虑美学上的特征
- Video highlighting and summarization:基本思想为做主成分分析,LASSO稀疏编码得到作为基底的帧,除去有冗余信息的帧;提出本文的创新点,在考虑除去冗余的基础上加入美学特征的权重,再引出一批采用同样思路的论文进行比较,给出创新点——判断指标为帧的美学属性而非与groundtruth的相似度
- Computational aesthetics:已有的视频计算美学技术的简介,包括图片的美学计算、视频创意度、视频有趣度等,最后概括本文提出了首个以摘要为目的的计算模型,强调创新点。
Our Method
1)筛选掉低质量帧
2)通过聚类在每个镜头选取关键帧
3)再进行一次聚类,每一类中根据美学指标得到封面候选帧
4)根据类的大小对候选帧进行排序
1.Frame Filter
首先提出问题,对所有的帧进行计算太花时间,再提出解决问题的假设——所有适合作为封面的帧一定满足必要的美学指标,最后总结解决方案——对视频处理前先进行一轮筛选。
- Low-quality frames
定义了三种低质量帧:dark, blurry, and uniform-colored,分别计算帧的明度、锐度和高灰度值的的占比(前5%灰度直方图面积占总面积的比例,较低代表颜色分布过于均匀) - Transitioning frames
用99年那篇文章的结果来进行过渡帧的检测 A feature-based algorithm for detecting and classifying production effects
以上两种筛选算法耗时较少,5min的视频仅需0.9s,平均将1118个视频长度缩减至88.64%。
2.Keyframe Extraction
视频中的每个镜头都有很多的相似帧,将它们组织起来最常用的方式为聚类,在本文中通过图片的美学指标(特别是静止度stillness)来进行聚类。聚类的数量n为视频的镜头数,每一类的中心帧即为封面。
- 特征挖掘:使用颜色、边缘直方图作为图片的特征,共2220维(不用SIFT是为了加速)
- 子镜头识别:聚类后的每一类即为一个子镜头
- 静止度矩阵(stillness metric):帧间差异度平方的倒数
- 关键帧提取:在每一类中找到静止度最大的那一帧
到此为止我们得到了每一子镜头的关键帧,下面从这些关键帧中找出最能代表视频的一帧。
3.Thumbnail Selection
通过相关度(relevance)和吸引度(attractiveness)来筛选关键帧。
- 相关度:对第2步得到的Keyframe再进行聚类,聚类的数量n从5-10取,使用gap statistic method得到最优的n,得到聚类后的集合,目的是进一步合并相似的关键帧
- 吸引度:衡量图像的视觉吸引度
1)unsupervised方法,对集合中的每一个类,计算静止度最大的一帧作为该类的封面候选
2)supervised方法,抽取了一些图像的一些特征,建了一个随机森林回归模型来计算aesthetic score
System Result
不同方法的top-5准确率 不同类型视频的准确率- 可以看到unsupervised方法是最优的
Qualitative Analysis
讨论了那些画面的参数影响了封面选择
- 视觉特征:我们考虑了53个视觉特征,包括颜色、纹理、质量、位置、运动能量等
- 数据准备:考虑到不同类型的视频封面的筛选标准不同,需要对所有的参数做归一化。方法为每个特征的数值为统计值而非真实数值,如封面的sharpness超过了视频的所有帧的90%,则sharpness值取0.9 「通过SIFT特征点,删去了和封面过于类似的帧」
在1118个视频中计算了每个特征的均值和方差得到下图:
均值和方差Conclusion:
- 人工选择的封面主要关注Objective Quality metrix,包括sharpness、brightness、contrast和colorfulness。解释了为什么unsupervised方法是最优的,而美学的指标并没有那么适用。
- 颜色:封面帧往往有丰富的颜色,即没有dominant color,Hue Contrast会相对较高,同时亮度也要在一定的阈值以上。
- 纹理:封面帧往往有更丰富的纹理,往往意味着画面中有更丰富的信息,这和图像美学的评价标准是相反的。
- 基本质量:封面帧往往有着更高的基本质量,包括Contrast Balance和Exposure Balance
- 构成:封面帧往往没有一个主要的显著主体,而是在各个位置都有显著的Object。
网友评论