背景

主要参考资料为爱丁堡大学ASR课程的PPT，这里会对每一章的知识点进行解析和梳理；因为是初学，有些地方的理解肯定有偏差，欢迎大家指正~

第一章 Introduction

语音识别研究的范畴有哪些？
- 语音到音素的转换：这里语音指一段音频，音素指发音学上的基本单位。比如拿中文来说的话，音素由拼音的声母、韵母加音调构成，例如"不"字，可以拆成两个音素，'b'和'u4', 4表示四声降调
  - 音素到文本的转换：有很多字都会对应同一个音，所以音素到文本是一对多的关系，如何选在最可能的文本，这就涉及到了语言模型
  - 说话人识别：到底是谁说的话？涉及到对音色的区分
语音识别的困难点在哪里？
- 输入（音频）的差别很大，体现在：
  - 说话人的发音特质（音色，响度等）千人前面，各不相同
  - 环境影响很大：录音设备，线路，屋内噪音等
  - 说话方式：是在演讲？还是在多人聊天？
  - 话题领域：涉及到词典的大小，比如对语音拨号的识别用很小的词典就够了，和对一般口语聊天的识别肯定不一样
  - 其他：方言，说话的情绪、状态等都有不同
- 从机器学习的角度来说：
  - 如果看成分类问题，则类别空间巨大
  - 如果看成序列标注问题，则序列会很长
  - 数据一般都有噪音
  - 训练数据的成本较高（人工标声音对应的文本）
  - 模型会比较复杂
定义语音识别问题：
- 输入：语音，会被转化为音频特征向量，是能被观察到的，记为 $X$
- 输出：文本序列，记为 $W$
- 任务：给出 $X$ , 找到最可能的 $W$
- 训练：在一堆标注了文本的语音上训练（ $X^n, W^n$ )
语音特征向量：音频一般会经过分帧、stft、mel滤波，倒谱等处理，获得fbank、mfcc等特征向量

语音特征向量
标签：
- 标签可以是不同的层次：词层、字层、音素层
- 标签可以是时间对齐的（指某个字/词/音素对应着的音频的时间段），也可以是不对齐的
下面都是一些困难点
- 训练中，对每一句语料，都需要把 $X$ 和 $W$ 对齐
- 识别时，需要遍历找到最可能的 $W$ ， $W$ 的空间是巨大的
隐马尔科夫模型
- 隐马模型较好的解决了上边两个困难点，可以把观察到的连续output映射到隐状态上去
- 它是生成模型，训练用forward-backward算法，识别用viterbi算法
  
  隐马模型1
- 一些语音识别基础
  - 识别任务用符号表示为：
    $W^*=arg\ max_{w}P(W|X)$
    通过bayes’ Theorem，其中P(W|X)被称为声学模型，P(W)被称为语言模型
    $P(W|X) \propto P(W|X)P(W)$
    $W^*=arg\ max_{w}P(W|X)\ P(W)$
    在这里插入图片描述
语音识别的评估
- 计算识别文本和真实文本的编辑距离, N表示单词数目，S表示需要替换的数目，D表示需要删除的数目，I表示需要添加的数目
  $100\cdot \frac{S+D+I} {N} \%$