美文网首页
ASR理论学习01-Introduction

ASR理论学习01-Introduction

作者: johnzhang123 | 来源:发表于2020-05-10 22:19 被阅读0次

背景

主要参考资料为爱丁堡大学ASR课程的PPT,这里会对每一章的知识点进行解析和梳理;因为是初学,有些地方的理解肯定有偏差,欢迎大家指正~

第一章 Introduction

  • 语音识别研究的范畴有哪些?

    • 语音到音素的转换:这里语音指一段音频,音素指发音学上的基本单位。比如拿中文来说的话,音素由拼音的声母、韵母加音调构成,例如"不"字,可以拆成两个音素,'b'和'u4', 4表示四声降调
      • 音素到文本的转换:有很多字都会对应同一个音,所以音素到文本是一对多的关系,如何选在最可能的文本,这就涉及到了语言模型
      • 说话人识别:到底是谁说的话?涉及到对音色的区分
  • 语音识别的困难点在哪里?

    • 输入(音频)的差别很大,体现在:
      • 说话人的发音特质(音色,响度等)千人前面,各不相同
      • 环境影响很大:录音设备,线路,屋内噪音等
      • 说话方式:是在演讲?还是在多人聊天?
      • 话题领域:涉及到词典的大小,比如对语音拨号的识别用很小的词典就够了,和对一般口语聊天的识别肯定不一样
      • 其他:方言,说话的情绪、状态等都有不同
    • 从机器学习的角度来说:
      • 如果看成分类问题,则类别空间巨大
      • 如果看成序列标注问题,则序列会很长
      • 数据一般都有噪音
      • 训练数据的成本较高(人工标声音对应的文本)
      • 模型会比较复杂
  • 定义语音识别问题:

    • 输入:语音,会被转化为音频特征向量,是能被观察到的,记为 X
    • 输出:文本序列,记为 W
    • 任务:给出X, 找到最可能的W
    • 训练:在一堆标注了文本的语音上训练( X^n, W^n)
  • 语音特征向量:音频一般会经过分帧、stft、mel滤波,倒谱等处理,获得fbank、mfcc等特征向量


    语音特征向量
  • 标签:

    • 标签可以是不同的层次:词层、字层、音素层
    • 标签可以是时间对齐的(指某个字/词/音素对应着的音频的时间段),也可以是不对齐的
  • 下面都是一些困难点

    • 训练中,对每一句语料,都需要把XW对齐
    • 识别时,需要遍历找到最可能的WW的空间是巨大的
  • 隐马尔科夫模型

    • 隐马模型较好的解决了上边两个困难点,可以把观察到的连续output映射到隐状态上去
    • 它是生成模型,训练用forward-backward算法,识别用viterbi算法


      隐马模型1
    • 一些语音识别基础
      • 识别任务用符号表示为:
        W^*=arg\ max_{w}P(W|X)
        通过bayes’ Theorem,其中P(W|X)被称为声学模型,P(W)被称为语言模型
        P(W|X) \propto P(W|X)P(W)
        W^*=arg\ max_{w}P(W|X)\ P(W)
        在这里插入图片描述
  • 语音识别的评估

    • 计算识别文本和真实文本的编辑距离, N表示单词数目,S表示需要替换的数目,D表示需要删除的数目,I表示需要添加的数目
      100\cdot \frac{S+D+I} {N} \%

相关文章

  • ASR理论学习01-Introduction

    背景 主要参考资料为爱丁堡大学ASR课程的PPT,这里会对每一章的知识点进行解析和梳理;因为是初学,有些地方的理解...

  • ASR

    完成的超乎预期的顺利。 高分者,很满意对自己工作的认可,后续也有自己明确的努力目标。 中间者,有些人有想法,执行力...

  • asr paper

  • Attention for ASR

    1 基于 Attention 的模型 Attention机制最先应用于机器翻译中,并在机器翻译中取得了最好的效果。...

  • 车机技术之基于ASR的麦克风阵列

    概述 我们之前介绍过语音识别技术(ASR),随着ASR的逐步成熟,麦克风阵列也逐步得到重用。尤其在汽车里,空间有限...

  • 语音识别之--音频编解码

    语音识别 ---------- Automatic Speech Recognition,(ASR) 一、音频编...

  • KALDI简介

    KALDI是著名的开源自动语音识别(ASR)工具,这套工具提供了搭建目前工业界最常用的ASR模型的训练工具,同时也...

  • DDD理论学习系列——案例及目录

    目录DDD理论学习系列(1)-- 通用语言DDD理论学习系列(2)-- 领域DDD理论学习系列(3)-- 限界上下...

  • [ASR] SDC特征

    20181108 qzd 滑动差分倒谱参数(Shifted Delta Cepstra)

  • ASR: DNN训练

    本文通过简单kaldi源码,分析DNN训练声学模型时神经网络的输入与输出。在进行DNN训练之前需要用到之前GMM-...

网友评论

      本文标题:ASR理论学习01-Introduction

      本文链接:https://www.haomeiwen.com/subject/zazsnhtx.html