owens相关论文

作者: Woooooooooooooo | 来源:发表于2019-10-08 09:32 被阅读0次

Ambient sound provides supervision for visual learning

论文地址：https://arxiv.org/pdf/1608.07017.pdf

搭建网络生成视频帧对应的用谱图（statistical summary）表示的声音，只能用于生成环境声音的表示

Abstract

在这个工作中证明了环境声音可以作为视觉任务的。利用卷积网络生成生成视频对应的声音的统计概要图，这个概要图代表了声音的某种表现形式。由于某类声音是在特定场景中出现，也可视为该网络是声音监督的视觉分类任务和场景表示任务，声音合成任务。

Introduction

由于视觉场景和场景中的显著目标和声音有联系。因此可以利用这种方法预测场景声音（纹理）。由于数据标注成本昂贵，利用视觉的纹理信息，避免标注成本。声音预测会遇到一个问题是我们听到的声音和视觉是松散相关的，声源可能位于视野之外，因此先验找到视频的声音是比较困难的。因此，这项工作把声音预测问题转换成为分类问题，利用CNN预测视频录制时发生声音的统计概要，随后验证学习到的表示形式是否包含有关对象和场景的重要信息。

本文主要有几个工作：

1）提出基于视觉CNN和声音纹理的模型

2）将学习到的表现形式用于对象和场景识别任务，验证声音监督的有效性

Visually indicated sounds

论文地址：https://arxiv.org/pdf/1512.08512.pdf

用于碰撞场景的声音生成

Abstract

由于物体的材料属性导致其在碰撞和摩擦时会发出不同的声音。因此本文提出一种利用RNN预测物体撞击声音的方法。

1 Introduction

声音不仅在统计上和视觉相关，而是直接由物理交互引起。所做的不是直接生成声音，而是对数据库的声音进行匹配

Audio-visual scene analysis with self-supervised multisensory features

利用声音对其网络实现前背景声音分离，声源分离和定位

网友评论

本文标题：owens相关论文

本文链接：https://www.haomeiwen.com/subject/arfbuctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

owens相关论文

Ambient sound provides supervision for visual learning

Abstract

Introduction

Visually indicated sounds

Audio-visual scene analysis with self-supervised multisensory features

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读