https://arxiv.org/pdf/1709.04595.pdf
最近在搞图像的auto-crop,不得不说这个领域是真的很玄学,美不美谁也说不准。本文是中科院的成果,用强化学习做的,很基础的强化学习的思路,感觉还是work的。此外最大的好处就是中国人写的paper嘛,可读性就是好,而且这篇写的也蛮细的。
整体说呢,就是把image cropping的问题定义为一个序列决策的过程。逐次进行最多t次决策,每一次决策在13中action中选择一种产生下一步的图像,也就是新的crop window了,如果action是termination或者已经决策了t次了就停止,输出结果。整体流程如下:
具体的流程就不详述了,这里主要列一下作者为了更好的解决这个RL问题的小设计。
1、因为在做一步一步的做image crop的时候,显然前面的step中的精确程度是更重要的,要不上来就跑偏了后面也没得救了。所以这里作者施加了一个与当前时间步t相关的reward惩罚项
image.png
2、同时,基于认为好看的图像的aspect ratio是有限制的假设,又对不符合比例标准的window添加了一个reward的惩罚:
image.png
这里的0.001和nr应该都是根据经验获得的。
3、进入agent的特征是由local和global两个部分组成的,local就是当前window提取出来的卷积特征,global是原始图像的卷积特征。但我没能理性的理解这样做的原因。
算法总体过程如下:
image.png
作者也开源了代码,我再1060的单卡上跑了一下,速度大概是这样的:
image.png
有很多张图像是没有跑两个step就到了terminal的。
选一张我觉得切的好的展示一下吧:
image.png
至于整体的效果,只能说是各花入各眼了~但是总是很容易就termianl了,会给我一种自己拍照水平很能打的错觉。:p)
网友评论