背景
主要参考资料为爱丁堡大学ASR课程的PPT,这里会对每一章的知识点进行解析和梳理;因为是初学,有些地方的理解肯定有偏差,欢迎大家指正~
第一章 Introduction
-
语音识别研究的范畴有哪些?
- 语音到音素的转换:这里语音指一段音频,音素指发音学上的基本单位。比如拿中文来说的话,音素由拼音的声母、韵母加音调构成,例如"不"字,可以拆成两个音素,'b'和'u4', 4表示四声降调
- 音素到文本的转换:有很多字都会对应同一个音,所以音素到文本是一对多的关系,如何选在最可能的文本,这就涉及到了语言模型
- 说话人识别:到底是谁说的话?涉及到对音色的区分
- 语音到音素的转换:这里语音指一段音频,音素指发音学上的基本单位。比如拿中文来说的话,音素由拼音的声母、韵母加音调构成,例如"不"字,可以拆成两个音素,'b'和'u4', 4表示四声降调
-
语音识别的困难点在哪里?
- 输入(音频)的差别很大,体现在:
- 说话人的发音特质(音色,响度等)千人前面,各不相同
- 环境影响很大:录音设备,线路,屋内噪音等
- 说话方式:是在演讲?还是在多人聊天?
- 话题领域:涉及到词典的大小,比如对语音拨号的识别用很小的词典就够了,和对一般口语聊天的识别肯定不一样
- 其他:方言,说话的情绪、状态等都有不同
- 从机器学习的角度来说:
- 如果看成分类问题,则类别空间巨大
- 如果看成序列标注问题,则序列会很长
- 数据一般都有噪音
- 训练数据的成本较高(人工标声音对应的文本)
- 模型会比较复杂
- 输入(音频)的差别很大,体现在:
-
定义语音识别问题:
- 输入:语音,会被转化为音频特征向量,是能被观察到的,记为
- 输出:文本序列,记为
- 任务:给出, 找到最可能的
- 训练:在一堆标注了文本的语音上训练( )
-
语音特征向量:音频一般会经过分帧、stft、mel滤波,倒谱等处理,获得fbank、mfcc等特征向量
语音特征向量 -
标签:
- 标签可以是不同的层次:词层、字层、音素层
- 标签可以是时间对齐的(指某个字/词/音素对应着的音频的时间段),也可以是不对齐的
-
下面都是一些困难点
- 训练中,对每一句语料,都需要把和对齐
- 识别时,需要遍历找到最可能的,的空间是巨大的
-
隐马尔科夫模型
- 隐马模型较好的解决了上边两个困难点,可以把观察到的连续output映射到隐状态上去
-
它是生成模型,训练用forward-backward算法,识别用viterbi算法
隐马模型1 - 一些语音识别基础
- 识别任务用符号表示为:
通过bayes’ Theorem,其中P(W|X)被称为声学模型,P(W)被称为语言模型
在这里插入图片描述
- 识别任务用符号表示为:
-
语音识别的评估
- 计算识别文本和真实文本的编辑距离, N表示单词数目,S表示需要替换的数目,D表示需要删除的数目,I表示需要添加的数目
- 计算识别文本和真实文本的编辑距离, N表示单词数目,S表示需要替换的数目,D表示需要删除的数目,I表示需要添加的数目
网友评论