美文网首页
ASR理论学习01-Introduction

ASR理论学习01-Introduction

作者: johnzhang123 | 来源:发表于2020-05-10 22:19 被阅读0次

    背景

    主要参考资料为爱丁堡大学ASR课程的PPT,这里会对每一章的知识点进行解析和梳理;因为是初学,有些地方的理解肯定有偏差,欢迎大家指正~

    第一章 Introduction

    • 语音识别研究的范畴有哪些?

      • 语音到音素的转换:这里语音指一段音频,音素指发音学上的基本单位。比如拿中文来说的话,音素由拼音的声母、韵母加音调构成,例如"不"字,可以拆成两个音素,'b'和'u4', 4表示四声降调
        • 音素到文本的转换:有很多字都会对应同一个音,所以音素到文本是一对多的关系,如何选在最可能的文本,这就涉及到了语言模型
        • 说话人识别:到底是谁说的话?涉及到对音色的区分
    • 语音识别的困难点在哪里?

      • 输入(音频)的差别很大,体现在:
        • 说话人的发音特质(音色,响度等)千人前面,各不相同
        • 环境影响很大:录音设备,线路,屋内噪音等
        • 说话方式:是在演讲?还是在多人聊天?
        • 话题领域:涉及到词典的大小,比如对语音拨号的识别用很小的词典就够了,和对一般口语聊天的识别肯定不一样
        • 其他:方言,说话的情绪、状态等都有不同
      • 从机器学习的角度来说:
        • 如果看成分类问题,则类别空间巨大
        • 如果看成序列标注问题,则序列会很长
        • 数据一般都有噪音
        • 训练数据的成本较高(人工标声音对应的文本)
        • 模型会比较复杂
    • 定义语音识别问题:

      • 输入:语音,会被转化为音频特征向量,是能被观察到的,记为 X
      • 输出:文本序列,记为 W
      • 任务:给出X, 找到最可能的W
      • 训练:在一堆标注了文本的语音上训练( X^n, W^n)
    • 语音特征向量:音频一般会经过分帧、stft、mel滤波,倒谱等处理,获得fbank、mfcc等特征向量


      语音特征向量
    • 标签:

      • 标签可以是不同的层次:词层、字层、音素层
      • 标签可以是时间对齐的(指某个字/词/音素对应着的音频的时间段),也可以是不对齐的
    • 下面都是一些困难点

      • 训练中,对每一句语料,都需要把XW对齐
      • 识别时,需要遍历找到最可能的WW的空间是巨大的
    • 隐马尔科夫模型

      • 隐马模型较好的解决了上边两个困难点,可以把观察到的连续output映射到隐状态上去
      • 它是生成模型,训练用forward-backward算法,识别用viterbi算法


        隐马模型1
      • 一些语音识别基础
        • 识别任务用符号表示为:
          W^*=arg\ max_{w}P(W|X)
          通过bayes’ Theorem,其中P(W|X)被称为声学模型,P(W)被称为语言模型
          P(W|X) \propto P(W|X)P(W)
          W^*=arg\ max_{w}P(W|X)\ P(W)
          在这里插入图片描述
    • 语音识别的评估

      • 计算识别文本和真实文本的编辑距离, N表示单词数目,S表示需要替换的数目,D表示需要删除的数目,I表示需要添加的数目
        100\cdot \frac{S+D+I} {N} \%

    相关文章

      网友评论

          本文标题:ASR理论学习01-Introduction

          本文链接:https://www.haomeiwen.com/subject/zazsnhtx.html