综述

作者: 尹小贱加油啊 | 来源:发表于2017-01-15 23:10 被阅读0次

    选择题

    1. 音乐合成的步骤
      作曲作词>编曲>录音>混音

    2. 音乐处理技术
      Midomi 公司用了什么技术---旋律检测(待定)

    3. 语音信号处理方法

    • 语音信号时域分析
      预处理 采样、量化、预加重、短时加窗
      • 音量(Volume )
      • 过零率(Zero Crossing Rate ) 短时分析
      • 端点检测(End-Point Detection )
      • 基频 (F0) 提取方法、自相关法
    • 语音信号频域分析
    1. 特征提取预处理的目的

    2. 关键帧提取算法
      基于镜头边界法
      基于颜色特征法
      基于运动分析法
      基于聚类的关键帧提取

    3. 镜头相似度提取的特征

    4. 视频目录构造的过程
      视频目录生成构造的主要步骤
      镜头边缘检测>关键帧提取>时空特征提取>时间可适性成组>场景结构构造

    5. 语音发声的形成过程 (16-17)
      声门振动的快慢,决定声音的基本频率(即音高)。
      口腔、鼻腔、舌头的位置、嘴型等,决定声音的內容
      (即音色)。
      肺部压缩空气的力量大小,决定音量大小

    判断题

    1. Nyquist API的功能(错误,在讲OpenAL)
      Nyquist是一个基于LISP用于声音合成的语言,基本声音的合成
      :OpenAl自由软件界的跨平台音效API,面向多通道三维位置音效制作, API 风格模仿自 OpenGL
      功能:在来源物体、音效缓冲和收听者中编码
      应用:音乐制作、大型的3D游戏、大型电影
    1. MFCC(错误,顺序错误)
      FFT ->LOG -> DCT
      Speech –> FFT based spectrum -> Mel scale triangular filters -> Acoustic vector

    2. 组的定义
      组(Group):组是介于物理镜头和语义场景之间的结构。
      例如:一段采访录像,镜头在主持人与被采访者之间频繁切换,整个采访属于一个场景,而那些关于主持人的所有镜头属于一组,关于被采访者的所有镜头属于另一组。

    简答题

    1. 音乐合成的四要素及具体定义
    • 音高
      指各种不同高低的声音,由发音体的振动频率决定的
    • 音强
      即音的强弱(响亮)程度,由发音时发音体振动幅度(简称振幅)的大小决定的
    • 音长
      是指声音的长短,它决定于发音体振动时间的久暂
    • 音色
      即声音的感觉特性,音色是由发音物体所产生的谐波决定的,发音物体的性质、形状不同,所产生的谐波也不同,因而音色也不同

    第一题变种:答旋律节奏和声以及这三个的定义

    • 节奏
      节奏是指组织起来的音的长短关系,它是音乐的骨架。节拍是指时值相等的强拍和弱拍有规律地交替出现。
    • 旋律
      旋律是指长短、高低、强弱不同的一连串乐音有组织地进行。旋律又是曲调,它是音乐的基础和灵魂
    • 和声
      和声包括“和弦”及“和声进行”。和弦通常是由三个或三个以上的乐音按一定的法则纵向(同时)重叠而形成的音响组合。和弦的横向组织就是和声进行
    1. 三种音乐可编程方法
    • 基于Niquist的音乐合成(LISP语言)
      Nyquist是一个基于LISP用于声音合成的语言,由CMU的Roger B. Dannenberg 教授带领开发
    • OpenAL
      自由软件界的跨平台音效API,面向多通道三维位置音效制作, API 风格模仿自 OpenGL
    • Matlab
    • Flash Action Script
    1. PITCH提取
    • Time-domain methods 时域方法
      • ACF: Autocorrelation function 自相关
      • SMDF: Average magnitude difference function 平均幅值差
      • SIFT: Simple inverse filter tracking 逆滤波
    • Frequency-domain methods 频域方法
    • Harmonic product spectrum method 谐波法
    • Cepstrum method 倒谱法
    1. 端点检测算法

    2. 运动向量提取算法
      标准匹配、顺序查找、对数搜索、分层搜索
      Criteria of matching \ Sequential Search
      Logarithmic search \ Hierarchical Search

    3. 视频时序结构图构造
      主要步骤
      视频解码
      视频切分
      关键帧提取
      视频聚类分析
      构造时序图
      按照时序图浏览

    4. 短时平稳假设 (16-17)

    语音信号特性是随时间而变化的,本质上是一个非 平稳过程。但不同的语音是由人的口腔肌肉运动构成 声道的某种形状而产生的响应,而这种肌肉运动频率 相对于语音频率来说是缓慢的,因而在一个短时间范 围内,其特性基本保持不变,即相对稳定,可以视作 一个准稳态过程。基于这样的考虑,对语音信号进行分段考虑,每一段称为一帧(frame).一般假设为10- 30ms的短时间隔。

    简答题

    I帧表示关键帧,你可以理解为这一帧画面的完整保留;解码时只需要本帧数据就可以完成(因为包含完整画面)

    P帧表示的是这一帧跟之前的一个关键帧(或P帧)的差别,解码时需要用之前缓存的画面叠加上本帧定义的差别,生成最终画面。(也就是差别帧,P帧没有完整画面数据,只有与前一帧的画面差别的数据)

    B帧是双向差别帧,也就是B帧记录的是本帧与前后帧的差别(具体比较复杂,有4种情况),换言之,要解码B帧,不仅要取得之前的缓存画面,还要解码之后的画面,通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高,但是解码时CPU会比较累~。

    P帧的预测与重构:
    P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。

    相关文章

      网友评论

          本文标题:综述

          本文链接:https://www.haomeiwen.com/subject/hkcubttx.html