- 基于语义流的快速而准确的场景解析:主要创新点在提出用类似光流的方法来解决相邻特征的对齐问题——FAM(流对齐模块)。光流的学习通过一个3*3的卷积来实现,输入为l层特征上采样后和l-1层特征concat,输出通道为2,大小与l-1层特征相同。将l层特征和求得的光流warp得到与l-1层对齐的特征,然后再将两个特征相加。warp的方法通过空间变换网络实现(STN)。看了下STN是前几年的paper了,当时做人脸关键点定位时曾试图用来将人脸对齐后再送入网络训练。结果对齐效果不理想,不如直接用仿射变换!可能当初的实现有问题,有时间时再研究下。另外,文中也提到,paper并没有比较用maxpool记录max值位置来对齐特征的方法。
- 再谈CNN中的位置和尺度问题。文中提到CNN从宏观上讲具有平移不变性,但实际并非如此!几个像素的移动都会造成特征图的不同。而下采样操作带来的差异尤其明显。文中提到可以用blur来缓解这种差异。关于CNN如何获取位置信息,文中提到zero-padding泄露了位置信息,这是通过试验得来的。然后,提到一篇coordconv,将坐标位置编码到conv中,在识别问题上获得了显著的提升。SOLO做实例分割时也编码了位置信息。
- 一键提升多媒体内容质量:漫谈图像超分辨率技术,回顾了超分辨率常用技术。基于cnn的方法通常是采用感知损失和加原图的残差结构。一个比较新的landmark方法,从网上搜索高清图片用来作为参考图恢复低分辨率图。涉及到图像配对等操作,对参考图的要求较高。对于小于200的图效果不佳。文中提到微软亚洲研究院有一个新技术已经集成到Microsoft 365,但还未说具体算法。期待中。
网友评论