本文首发于微信公众号《与有三学AI》
0 导论
我是一个AI行业的从业者,也是一个摄影爱好者。
在不断接触摄影技术的过程中,也不断地开始了解计算机算法,尤其是最新的深度学习技术在其中发挥的作用。
这篇文章的目的,是一个导论,面向的对象,也是大众。但是,本着稍求甚解的原则,我接下来会尽量照顾受众的同时,也说点技术。
摄影,说的粗浅一点,就说拍照吧,本身并不是一个技术很高的活,稍加训练,就能成为合格的摄影师。
当然,摄影本身也可以是一门艺术,好的作品往往会带入情绪等等。这是一个充满抽象与主观因素的领域。但我们不能因此陷在这个点上,不然下面就没法说了。
好的照片,让大众心情愉悦,欣赏点赞的照片,是有共性的,而计算机玩摄影,就是要解决这个问题,怎么学习到摄影师和大众的审美。
所以下面正式抛出关键词:photo aesthetics
1 一窥 aesthetics
总的来说,包含以下几个大方向;
所谓photo aesthetics,即计算机美学,这是计算机视觉的一个研究方向。它研究通过计算机来学会人的审美,狭义而简单的来说,就是判断一张图片是高质量的,还是低质量的,也就是好与坏,数学上这是一个2分类问题。很多早期的研究,以及相应的数据库CUHK【1】,CUHKPQ【2】的标注,都是为这个而服务。
从下图相关论文的数量趋势来看,现在是一个很活跃的领域。
从研究的现状来看,这也是一个远远没有饱和的区域。
相比人脸检测,美颜等,这是一个更抽象,更难的问题,还处于高速发展期。
从2006年左右,这个领域开始有了比较系统的研究,至今十年出头。所以,我接下来的介绍,也是近10年的一个概览。
上面说了,最简单也是最直观最早期的研究,就是分辨一张图是好,还是不好,是个2分类问题。
但是2分类问题有它的两个重大的局限性:
(1) 美学不是一个很严谨的数学问题,而是有很强的主观性,有很多的图,介于好图与非好图之间,难以2分类,分界面实在不清晰。这导致问题本身定义不明确,数据的标注也很困难。
(2) 如果只是一直做2分类问题研究,那很多的应用无法实现,直接点的如图像检索排名,间接点的如构图推荐,自适应滤镜。
演变到后来,先是升级到了回归问题,不仅分好坏,还要打个等级分。
什么意思呢?每一个样本的标注不再是2分类,不仅仅是包含好图与坏图的标注,而是有了一个量化的分数,比如AVA数据集【3】分数的标注从1到10。
研究就变成了如何回归出其标注的分数,最后给出每张图片的平均分数。
从应用层面上讲,主要包括了图像检索,自动构图,智能滤镜,甚至是直接创作。
以上,就是通常意义下的photo aesthetics包含的内容,核心思想就是学习分辨与创作好图。
2 photo aesthetics的主要研究方法
在说应用之前,还是先说说我们的研究手段。
从技术的突破来说,以深度学习为界限,可以从传统方法和深度学习方法来说。不过对于大多数问题和应用这两者最大的区别就是:前者是手动设计特征,后者是自动学习特征。
所以,这里不从传统方法和深度学习方法的维度来说,而是从研究问题的演变发展上说。
(1) 二分类问题。
1说了,最开始的时候,美学问题仅仅是被当做一个2分类问题。
早期的数据集CUHK【1】,CUHKPQ【2】,都只包含2分类的标注,也就是数据集中的图片被人为分为了质量高与低的图。
为了让数据集更可靠,自然是选择了一些区分度比较大,也就是不太容易产生歧义的图片。质量好的,通常是大家都认为好,质量低的以此类推。
如下图:
(a)是质量高的,(b)是质量低的,没有疑问。
【2】可以认为是在【1】的基础上问题的延续,它弥补了【1】中的巨大不足,就是不再对所有图片一视同仁,而是不同类型的照片区分对待。
将所有的图总共分为了7类,包括landscape,plant,animal,night,human,static,architecture。
上图是一个示例,在研究过程中对不同的类别,开始采用不同的特征,考虑了图像的多样性(diversity)。
这是必须的,因为摄影中对待不同类型的照片,就是必须用不同的表现手法。
比如人像摄影中,尤其是近照,需要控制好光照,使用大光圈。而风景照中最需要的是好的构图与丰富的色彩表达。
2分类问题研究方法的进步,就是不断利用新的深度学习模型去提取特征,从alexnet【4】,到googlenet【5】到resnet【6】等的尝试,以后专题介绍。
(2) 回归问题。
由于2分类的局限性,自然而然的就演变成了回归问题。
这个时候也就出现了新的供我们使用的数据库,AVA【3】。
这是一个很大的数据库,包括250000张照片。每一张照片,都有一个评分从1~10分。同时还有语义级别和照片风格的标注,以后我们详说。
比较新的研究有【7】。相比于2分类问题,其实回归问题也没有太多新的东西,从数学上来说,无非就是输出维度变了,loss function变了。
不过在学习具体分数值的过程中,有些研究更进一步,预测了分数的分布。也就是不仅仅预测了图片的质量分数,还预测了它的分数概率图,比如【8】。
(3) 相对美学问题。
这个的出发点,是从人的主观上进行考虑。对于人来说,容易判断的是一张图片的相对好坏,而不是绝对分数。
同时又由于更可靠稳定的有打分标注的数据集的获取成本之高,催生了一些研究。就是在学习的过程中,没有一个绝对的分数来指导你。
【8】,【9】都是相关研究。
从训练上来看,这一般输入的训练是多个图像,可能是两个图像,也可能是多个图像,一起丢进网络去学习哪一个更好。
下面是一个结果展示,右边的比左边的质量高。相对美学,在图像检索和图像增强中是有很大的作用的。
相对美学,是一个很值得研究的问题。
(4) 多任务学习问题
最简单粗暴的方法,就是不管是什么图像,都直接提特征,分类也好,回归也好。但是,显然这是不可能很好的解决问题的。
摄影美学是讲究因材施教的,不同类型的图像,审美标准完全不同。
那么,直接对所有的图片,采用同样的方法学习,是不通,所以就有方法,或利用图像style,semantic信息进行弱监督,或直接将style和score,semantic一起学习【10】。
至于怎么做,按住不表,下回再论。
3 Photo aesthetics应用
总的来说,包含以下几个大方向;
(1) 图像检索
我们在搜索引擎中搜索图片时,自然是希望能够尽量返回质量高的图,恨不得是高清原图。
但是目前的搜索引擎并不能做到。
因为,目前的都是基于tag做的检索,而不是图像本身的质量。
下面就在百度中搜了一个学校美照,出来的效果不怎么样。
学校没得到体现,人像很多也是普普通通的大头照,从摄影师的角度来看,真的很一般。
当然,你也可以去搜索更多的关键词,反正我在使用过程中常常不满意。Google图片质量比百度高,但是也还有很大的发展空间。
(2) 图像自动构图
自动裁剪这个,自打用上iphone起,它的照片管理工具就自带这个功能了,但是其他好用的app,我还没有发现。
这是个什么问题,专业点的说法,就是摄影构图。
它做的就是去除不必要的元素,合理安排画面中的元素分布。
每一个摄影师拍完照做后期时,第一步肯定就是做图像裁剪。
就算是最后没有裁剪,第一步也会看是不是需要裁剪!
为什么。因为你拍照的时候,很多时候来不及细细的去构图,
只有在后期认真想的时候,
才会去精细地调整。
据我体验,目前iphone照片管理软件的自动裁剪功能,主要还是对人像管用,下面给大家看个例子就知道了。
干脆把两张前后对比图拿过来大家瞧瞧,想想为什么要这么裁剪?
自动裁剪前
自动裁剪后
可以看出,去除了更多的干扰,使画面更加平衡与和谐。
关于更多的构图摄影知识,请关注我另一个摄影公众号《言有三工作室》,里面有大量的教程可以学习体验。
至于构图的一些研究,可以参考【11】【12】,下回说细节。
(3) 自适应滤镜
现在就没有一个app能够自动推荐滤镜,后期很多的时候是很繁琐的。
对于菜鸟来说,只能去各种尝试已有的滤镜。
对于高手来说,需要很多时间来积累经验,也需要时间去选择更好的方案。
费时费力,还不一定能达到最好的效果,所以,我们其实都很期待出现一个app,
能够自动帮我们选择一个好的风格滤镜。
可惜,现在比较优秀的后期app,如snapseed,泼辣修图,也仅仅是能够对图像的对比度,亮度等自适应地做些调整。
关于现有的发展,更详细的介绍,在我的摄影公众号《言有三工作室》的文章
Apple和Google他们为小白们的修图大业做了什么?中有详细的说明,大家有兴趣可以自行前往阅读。
现在比较好的研究,也有一些。
像名字取得比较吓人的【13】,号称end-to-end可以把手机照片提升至单反画质,不过实际效果看来,主要是减少了阴影,总体上学习到了使图像变得更加通透。缺点是对比度经常放的太高,同时因为采用了GAN,放大了噪声。
这种事当然不能少了汤晓鸥他们团队,EnhanceGAN算是很新的应用了【14】,也成功地学习到了颜色,对比度等调整方法,不是end-to-end的方法,而是image-crop与enhancement交叉训练。
最大的优点是不需要成对的标注图像了(这是通过gan,和一批有着2分类标签的高质量图和低质量图来实现的)。
早期的方法【15】是需要成对的标注图像,成本太高,所以数据集不可能很大。以后不需要成对图像做训练的方法,必将成为主流。
(4) 风格化
这个,其实已经踏进艺术的创作,而不仅仅是摄影的范畴了。
行内人士可能还记得《image style transfer using convolutional neural networks》【16】这篇文章,后来催生了prisma,当时那个很火的滤镜。
整个的流程就如同下面这样,一张原图,一个风格,最后做融合。
不过,没过多久,就退烧了。毕竟,那样玩图太“高级”,不是大众刚需,也就没见人玩了。
但是,并不是说他就不重要的了。
像pixtopix【17】这样的文章出来之后,风格化仍然有很大的市场。
比如黑白图像上色,比如图像风格转化(夏天冬天风格转化)【18】,甚至做得极端点,cycle-gan【19】这样的,不需要成对地标注,把斑马和马相互转换的有意思的研究。
未来,还大有可为!
4 Photo aesthetics焦点问题
难点
(1) 怎么利用数学的方法去建模内部的美学规则。
(2) 怎样自适应调整不同的图片之间的美学差异。
(3) 如何准确判断一张图采用的技术。
(4) 怎样获取一个标注详细的大数据库。
热点
(1) 网络结构设计相关问题,如多尺度多patch。
(2) 图片风格,语义信息的应用。
(3) 怎么自动获取数据的标注。
(4) 最新技术在其中的应用,GAN。
这一次,只是一个入门介绍,后续,敬请期待!
作者简介:
言有三,原360AI研究院工程师,一个摄影爱好者。
更多请移步
1,我的gitchat达人课
2,AI技术公众号,《与有三学AI》
[caffe解读] caffe从数学公式到代码实现1-导论
3,以及摄影号,《有三工作室》
如果有土豪觉得文章OK,想打个赏,那就乐呵呵接受了!
【1】Y. Ke, X. Tang, and F. Jing. The design of high-level features for photo quality assessment. In CVPR, 2006. 1, 3, 6
【2】W. Luo, X. Wang, and X. Tang. Content-based photo quality assessment. In ICCV, 2011. 1, 3, 6, 7
【3】Perronnin F, Marchesotti L, Murray N. AVA: A large-scale database for aesthetic visual analysis[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012:2408-2415.
【4】Lu X, Lin Z, Jin H, et al. RAPID: Rating Pictorial Aesthetics using Deep Learning[J]. IEEE Transactions on Multimedia, 2015, 17(11):2021-2034.
【5】Jin X, Wu L, He Z, et al. Efficient Deep Aesthetic Image Classification using Connected Local and Global Features[J]. 2017:1-6.
【6】Murray N, Gordo A. A deep architecture for unified aesthetic prediction[J]. 2017.
【7】Malu G, Bapi R S, Indurkhya B. Learning Photography Aesthetics with Deep CNNs[J]. 2017.
【8】PKong S, Shen X, Lin Z, et al. Photo Aesthetics Ranking Network with Attributes and Content Adaptation[J]. 2016:662-679.
【9】Chandakkar P S, Gattupalli V, Li B. A Computational Approach to Relative Aesthetics[J]. 2017.
【10】Kao Y, He R, Huang K. Deep Aesthetic Quality Assessment with Semantic Information[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2017, 26(3):1482.
【11】Chen Y L, Huang T W, Chang K H, et al. Quantitative Analysis of Automatic Image Cropping Algorithms: A Dataset and Comparative Study[J]. 2017:226-234.
【12】Wang W, Shen J. Deep Cropping via Attention Box Prediction and Aesthetics Assessment[J]. 2017.
【13】Ignatov A, Kobyshev N, Timofte R, et al. DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks[J]. 2017.
【14】Deng Y, Chen C L, Tang X. Aesthetic-Driven Image Enhancement by Adversarial Learning[J]. 2017.
【15】Yan Z, Zhang H, Paris S, et al. Automatic Photo Adjustment Using Deep Neural Networks[J]. Acm Transactions on Graphics, 2016, 35(2):11.
【16】Gatys L A, Ecker A S, Bethge M. Image Style Transfer Using Convolutional Neural Networks[C]// Computer Vision and Pattern Recognition. IEEE, 2016:2414-2423.
【17】Isola P, Zhu J Y, Zhou T, et al. Image-to-Image Translation with Conditional Adversarial Networks[J]. 2016.
【18】Luan F, Paris S, Shechtman E, et al. Deep Photo Style Transfer[J]. 2017.
【19】Zhu J Y, Park T, Isola P, et al. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks[J]. 2017.
网友评论