选择题
-
音乐合成的步骤
作曲作词>编曲>录音>混音 -
音乐处理技术
Midomi 公司用了什么技术---旋律检测(待定) -
语音信号处理方法
- 语音信号时域分析
预处理 采样、量化、预加重、短时加窗
• 音量(Volume )
• 过零率(Zero Crossing Rate ) 短时分析
• 端点检测(End-Point Detection )
• 基频 (F0) 提取方法、自相关法 - 语音信号频域分析
-
特征提取预处理的目的
-
关键帧提取算法
基于镜头边界法
基于颜色特征法
基于运动分析法
基于聚类的关键帧提取 -
镜头相似度提取的特征
-
视频目录构造的过程
视频目录生成构造的主要步骤
镜头边缘检测>关键帧提取>时空特征提取>时间可适性成组>场景结构构造 -
语音发声的形成过程 (16-17)
声门振动的快慢,决定声音的基本频率(即音高)。
口腔、鼻腔、舌头的位置、嘴型等,决定声音的內容
(即音色)。
肺部压缩空气的力量大小,决定音量大小
判断题
- Nyquist API的功能(错误,在讲OpenAL)
Nyquist是一个基于LISP用于声音合成的语言,基本声音的合成
附:OpenAl自由软件界的跨平台音效API,面向多通道三维位置音效制作, API 风格模仿自 OpenGL
功能:在来源物体、音效缓冲和收听者中编码
应用:音乐制作、大型的3D游戏、大型电影
-
MFCC(错误,顺序错误)
FFT ->LOG -> DCT
Speech –> FFT based spectrum -> Mel scale triangular filters -> Acoustic vector -
组的定义
组(Group):组是介于物理镜头和语义场景之间的结构。
例如:一段采访录像,镜头在主持人与被采访者之间频繁切换,整个采访属于一个场景,而那些关于主持人的所有镜头属于一组,关于被采访者的所有镜头属于另一组。
简答题
- 音乐合成的四要素及具体定义
- 音高
指各种不同高低的声音,由发音体的振动频率决定的 - 音强
即音的强弱(响亮)程度,由发音时发音体振动幅度(简称振幅)的大小决定的 - 音长
是指声音的长短,它决定于发音体振动时间的久暂 - 音色
即声音的感觉特性,音色是由发音物体所产生的谐波决定的,发音物体的性质、形状不同,所产生的谐波也不同,因而音色也不同
第一题变种:答旋律节奏和声以及这三个的定义
- 节奏
节奏是指组织起来的音的长短关系,它是音乐的骨架。节拍是指时值相等的强拍和弱拍有规律地交替出现。 - 旋律
旋律是指长短、高低、强弱不同的一连串乐音有组织地进行。旋律又是曲调,它是音乐的基础和灵魂 - 和声
和声包括“和弦”及“和声进行”。和弦通常是由三个或三个以上的乐音按一定的法则纵向(同时)重叠而形成的音响组合。和弦的横向组织就是和声进行
- 三种音乐可编程方法
- 基于Niquist的音乐合成(LISP语言)
Nyquist是一个基于LISP用于声音合成的语言,由CMU的Roger B. Dannenberg 教授带领开发 - OpenAL
自由软件界的跨平台音效API,面向多通道三维位置音效制作, API 风格模仿自 OpenGL - Matlab
- Flash Action Script
- PITCH提取
- Time-domain methods 时域方法
- ACF: Autocorrelation function 自相关
- SMDF: Average magnitude difference function 平均幅值差
- SIFT: Simple inverse filter tracking 逆滤波
- Frequency-domain methods 频域方法
- Harmonic product spectrum method 谐波法
- Cepstrum method 倒谱法
-
端点检测算法
-
运动向量提取算法
标准匹配、顺序查找、对数搜索、分层搜索
Criteria of matching \ Sequential Search
Logarithmic search \ Hierarchical Search -
视频时序结构图构造
主要步骤
视频解码
视频切分
关键帧提取
视频聚类分析
构造时序图
按照时序图浏览 -
短时平稳假设 (16-17)
语音信号特性是随时间而变化的,本质上是一个非 平稳过程。但不同的语音是由人的口腔肌肉运动构成 声道的某种形状而产生的响应,而这种肌肉运动频率 相对于语音频率来说是缓慢的,因而在一个短时间范 围内,其特性基本保持不变,即相对稳定,可以视作 一个准稳态过程。基于这样的考虑,对语音信号进行分段考虑,每一段称为一帧(frame).一般假设为10- 30ms的短时间隔。
简答题
I帧表示关键帧,你可以理解为这一帧画面的完整保留;解码时只需要本帧数据就可以完成(因为包含完整画面)
P帧表示的是这一帧跟之前的一个关键帧(或P帧)的差别,解码时需要用之前缓存的画面叠加上本帧定义的差别,生成最终画面。(也就是差别帧,P帧没有完整画面数据,只有与前一帧的画面差别的数据)
B帧是双向差别帧,也就是B帧记录的是本帧与前后帧的差别(具体比较复杂,有4种情况),换言之,要解码B帧,不仅要取得之前的缓存画面,还要解码之后的画面,通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高,但是解码时CPU会比较累~。
P帧的预测与重构:
P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。
网友评论