过去一周内值得关注的多媒体、计算机视觉开源项目与论文

作者: zhanghuicuc | 来源:发表于2019-05-27 20:27 被阅读2次

OpenVSLAM：日本先进工业科技研究所新开源视觉SLAM框架

地址：https://github.com/xdspacelab/openvslam 所谓SLAM即同步定位与地图构建（Simultaneous localization and mapping），在扫地机器人、无人机、AR游戏中已经有所应用。 OpenVSLAM就是一套单目、立体、RGB-D视觉的SLAM系统，它的主要特点有：

兼容多种相机类型，通过简单的自定义，也可以快速兼容其他类型相机；
可以存储和加载创建好的地图，从而可以基于预先构建的地图定位新图像；
系统完全模块化，对外提供简单易懂的API；
提供了丰富的代码示例来帮助开发人员理解该系统的核心功能；

原理上，OpenVSLAM是基于具有稀疏特征的间接SLAM算法构建的，例如ORB-SLAM，ProSLAM和UcoSLAM。效果很酷：

image

表情包黑科技：三星新研究从一张图像中生成人物开口说话的动图

论文地址：《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》https://arxiv.org/abs/1905.08233

image

看完这篇被CVPR2019接收的论文之后我的第一想法就是：以后不愁没有表情包了！研究人员的脑洞真是深不可测。

以往类似的研究都要在大量个人数据上进行训练，本文的方法则只需要一张图片就能搞定，这得益于研究人员利用的Few-shot learning等技术。研究人员使用 VoxCeleb2 视频数据集进行元训练（meta trainning）。在元学习过程中，系统创建了三种神经网络：将帧映射到向量的嵌入器网络、在合成视频中映射面部特征点的生成器网络以及评估生成图像真实性和姿态的判别器网络。联合三种网络，该系统能在大型视频数据集上执行长时间的元学习过程。待元学习收敛后，就能构建 few-shot 或 one-shot 的神经头像特写模型。该模型将未见过的目标任务视为对抗学习问题，这样就能利用已学习的高质量生成器与判别器。

ICRA2019：利用视觉信号预测驾驶员意图

论文地址： DeepSignals: Predicting Intent of Drivers Through Visual Signals http://www.cs.toronto.edu/~urtasun/publications/frossardetalicra19.pdf 本文作者是优步ATG首席科学家兼优步ATG多伦多负责人，同时也是多伦多大学计算机科学系的副教授，加拿大机器学习和计算机视觉研究主席以及人工智能矢量研究所的联合创始人。

image

通过检测驾驶员的意图，来预测变道和停车事件，是自动驾驶领域的一个课题。本文的角度很新颖，解决了转弯信号分类这一重要而尚未探索的问题，提出了一种能够端到端的训练方法。他们提出的神经网络通过意图、卷积和递归来推断空间和时间特征，从而在帧级对一系列观测信号的转弯信号状态进行分类。该实验使用包含120多万张实况图像的数据集来训练和评估的方法。在北京开过车的朋友可能都知道，你要是在变道之前打灯，后车大概率会故意加速，专门恶心你。希望自动驾驶时代早日来临，专治这种奇葩。

CVPR2019：边窗滤波（Side Window Filter）

论文地址：《Side Window Filtering》 https://arxiv.org/abs/1905.07177 github地址：https://github.com/YuanhaoGong/SideWindowFilter 本文的中心思想非常霸气：不管原来的滤波器保不保边，Side Window都让它保边！传统的滤波算法都使用全窗口回归，也就是把窗的中心位置放在待处理像素的位置。即便是用非线性各向异性加权，仍然无法杜绝沿着图像边缘的扩散（可能只是沿着边缘的扩散比较大，而沿着法线的扩散的比较小，比较小也是扩散，这是传统方法不保边的本质原因）。

image

基于这一分析，为什么不把窗口的边缘直接放在待处理像素的位置呢？这就切断了可能的法线方向的扩散，如上图所示，在图像的边缘附近，相邻的两个像素a和b。虽然他们物理上相邻，但是他们选择的半窗口却是朝向两个不同的方向。从而不会出现边缘的模糊。

image

基于这种side window的思想，可以把传统的Box Filter，Gaussian Filter，median Filter，Bilateral Filter，Guided Filter等等都变成Side Window版本。不管原来的滤波器保不保边，Side Window版本都让它保边。在除噪，平滑，HDR应用，结构纹理分解，深度估计，上颜色的场景下，Side Window也都能带来更好的效果。在遍地深度学习的背景下，这篇文章的简单与实用堪称一股清流。

关注公众号，掌握更多多媒体领域知识与资讯

image

网友评论

本文标题：过去一周内值得关注的多媒体、计算机视觉开源项目与论文

本文链接：https://www.haomeiwen.com/subject/awpktctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

过去一周内值得关注的多媒体、计算机视觉开源项目与论文

OpenVSLAM：日本先进工业科技研究所新开源视觉SLAM框架

表情包黑科技：三星新研究从一张图像中生成人物开口说话的动图

ICRA2019：利用视觉信号预测驾驶员意图

CVPR2019：边窗滤波（Side Window Filter）

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

开源工具技巧

多媒体科技

音视频，多媒体，编解码

深度学习·神经网络·计算机视觉

音视频技术

过去一周内值得关注的多媒体、计算机视觉开源项目与论文

OpenVSLAM：日本先进工业科技研究所新开源视觉SLAM框架

表情包黑科技：三星新研究从一张图像中生成人物开口说话的动图

ICRA2019： 利用视觉信号预测驾驶员意图

CVPR2019： 边窗滤波（Side Window Filter）

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

开源工具技巧

多媒体科技

音视频，多媒体，编解码

深度学习·神经网络·计算机视觉

音视频技术

ICRA2019：利用视觉信号预测驾驶员意图

CVPR2019：边窗滤波（Side Window Filter）