美文网首页
owens相关论文

owens相关论文

作者: Woooooooooooooo | 来源:发表于2019-10-08 09:32 被阅读0次

    Ambient sound provides supervision for visual learning

    论文地址:https://arxiv.org/pdf/1608.07017.pdf

    搭建网络生成视频帧对应的用谱图(statistical summary)表示的声音,只能用于生成环境声音的表示

    Abstract

    在这个工作中证明了环境声音可以作为视觉任务的。利用卷积网络生成生成视频对应的声音的统计概要图,这个概要图代表了声音的某种表现形式。由于某类声音是在特定场景中出现,也可视为该网络是声音监督的视觉分类任务和场景表示任务,声音合成任务。

    Introduction

    由于视觉场景和场景中的显著目标和声音有联系。因此可以利用这种方法预测场景声音(纹理)。由于数据标注成本昂贵,利用视觉的纹理信息,避免标注成本。声音预测会遇到一个问题是我们听到的声音和视觉是松散相关的,声源可能位于视野之外,因此先验找到视频的声音是比较困难的。因此,这项工作把声音 预测问题转换成为分类问题,利用CNN预测视频录制时发生声音的统计概要,随后验证学习到的表示形式是否包含有关对象和场景的重要信息。

    本文主要有几个工作:

    1)提出基于视觉CNN和声音纹理的模型

    2)将学习到的表现形式用于对象和场景识别任务,验证声音监督的有效性


    Visually indicated sounds

    论文地址:https://arxiv.org/pdf/1512.08512.pdf

    用于碰撞场景的声音生成

    Abstract

    由于物体的材料属性导致其在碰撞和摩擦时会发出不同的声音。因此本文提出一种利用RNN预测物体撞击声音的方法。

    1 Introduction

    声音不仅在统计上和视觉相关,而是直接由物理交互引起。所做的不是直接生成声音,而是对数据库的声音进行匹配


    Audio-visual scene analysis with self-supervised multisensory features

    利用声音对其网络实现前背景声音分离,声源分离和定位

    相关文章

      网友评论

          本文标题:owens相关论文

          本文链接:https://www.haomeiwen.com/subject/arfbuctx.html