美文网首页
语音识别之--音频编解码

语音识别之--音频编解码

作者: falldew | 来源:发表于2018-06-15 16:25 被阅读0次

语音识别    ----------   Automatic Speech Recognition,(ASR)


一、音频编解码过程

        连续的模拟信号(人的声音或一切声音/声波)------>01bit的数字信号(PCM、mp3、WAV等音频文件或CD) ----->非连续的数字音频,该过程需要经过采样、量化、编码、解码;

1.1采样:

         采样就是从一个时间上连续变化的模拟信号中取出若干个有代表性的样本值,来代表这个连续变化的模拟信号,如图示,按照奈奎斯特采样定理:要从采样值序列中完全恢复成原始波形,采样频率必须大于原始信号最高频率的2倍。

1.2量化

       将采样后的每个点使用n个二进制数据表示,幅值相同的点所表示的二进制数据一样,比如0001表示A点和B点,0010表示C点。二进制数据位数越多,对声波幅值的纵向切分越精细。

1.3编码

      采样、量化后的数据还不是数字信号,需要把它转化成数字脉冲,这个过程称为编码。

1.4采样频率和量化级

量化级:也叫量化数据位数,常见有8bit和16bit,8bit表示把纵轴划分为256个量化等级(2^8),量化位数越高,量化值越接近采样值,其精度越高,但要求的信息存储量就越大。 

采样频率:采样频率高低决定了声音失真程度的大小,为保证声音不失真,采样频率应该在40kHz左右。采样频率一般有三种,44.1kHz是最常见的采样率标准(每秒取样44100次,用于CD品质的音乐);22.05kHz(适用于语音和中等品质的音乐);11.25kHz(低品质)。对于高于48KHz的采样频率人耳已无法辨别出来了,所以在电脑上没有多少使用价值。

    5kHz的采样率仅能达到人们讲话的声音质量。

    11kHz的采样率是播放小段声音的最低标准,是CD音质的四分之一。

    22kHz采样率的声音可以达到CD音质的一半,目前大多数网站都选用这样的采样率。

    44kHz的采样率是标准的CD音质,可以达到很好的听觉效果。

相关文章

  • 语音识别之--音频编解码

    语音识别 ---------- Automatic Speech Recognition,(ASR) 一、音频编...

  • 多媒体音频播放简单介绍

    概述 基础知识-音频编解码,音频格式,音频会话(session) ios软硬件音频编解码器 音频会话(Audio ...

  • JAVA将MP3转为WAV

    想搞个百度语音识别玩玩,但人家要固定格式的音频(关于百度语音识别的请查看官方文档——百度语音识别SDK),于是就上...

  • 解决使用 AVAudioRecorder 录音保存 .WAV 文

    问题背景 App 实现录音保存音频文件,并实现本地语音识别匹配功能。 通过网络请求上传通过语音匹配的音频文件。 服...

  • 6-2 如何读写json数据

    实际案例: 在web应用中常用JSON格式传输数据,例如我们利用Baidu语音识别服务做语音识别,将本地音频数据p...

  • 七月 语音识别实战 百度网盘分享

    01.补充课02.语音识别技术之前世: GMM + HMM03.语音识别技术之今生:神经网络04.第一课 语音识别...

  • 智能语音客服服务助手

    智能语音客服服务助手 语音识别 阿里语音识别 百度语音识别 讯飞语音识别 语音合成 阿里语音合成 百度语音合成 讯...

  • FFmpeg小白学习记录(四)音频流编解码流程

    音频解码与编码流程 解码流程 音频编解码流程与视频编解码流程一致,我们可以对 mp4 文件的音频流进行解码,并将解...

  • 音频编解码

    一、流程说明 该项目是包括了音频的录制、编码(AAC)、解码(PCM)全部过程;是使用AVFoundation、A...

  • 音频标注工具

    简介 机器学习需要大量的数据,语音标注工具可以对录制的音频进行文本标注、清洗,以应用于语音识别、语音唤醒所需的数据...

网友评论

      本文标题:语音识别之--音频编解码

      本文链接:https://www.haomeiwen.com/subject/opcmeftx.html