Praat 语音标注

作者: MayJin | 来源:发表于2018-01-29 16:59 被阅读573次

Praat 语音标注
语音数据标注工具与平台
Python相关库介绍
音频标注工具
自然语言处理层次
数据标注平台分析与使用经验
标贝语音数据集标注格式（中文）
用最新NLP库Flair做文本分类
02-隐马尔科夫模型（HMM）一
希腊字母表

Praat 语音学软件，原名Praat: doing phonetics by computer，通常简称 Praat，是一款跨平台的多功能语音学专业软件，主要用于对数字化的语音信号进行分析、标注、处理及合成等实验，同时生成各种语图和文字报表。

一、Mac 版 Praat 软件的安装

访问官网，下载相应的版本，本实验下载的 Macintosh 版（即Mac 版），官网有详细的安装步骤，概括为：
（1）磁盘映像文件；
（2）下载字体包；

二、Praat 软件的使用

导入语音文件
点击 praat —>open —> read from file —> 找到你打开的文件 —> 打开，文件被添加在了praat 中；
生成 TextGrid 文件
选中要转写的语音文件 —> annotate - —> To TextGrid... —>语音文件分层（三层）如下图：

分层.png

点击 OK 生成 TextGrid 文件；
编辑语音和 TextGrid 文件
同时选中语音文件和 TextGrid 文件 —> View & Edit；如图：

转写界面.png

三、标注语音文件

（一）时间边界定位

按 Tab 键可以播放语音，再次按 Tab 键可以停止播放语音；
command + i：可以放大波形，
command + o：可以缩小波形，
command + s可以保存 TextGrid 文件；
添加时间边界的方法为：将鼠标移动到语音波形的相应位置，这时会出现一条虚线以及圆圈，分别点击 SPEAKER 层和 CONTENT
层对应的圆圈即可。在整个语音文件中，SPEAKER 层和 CONTENT
层的时间边界的数目是完全一致的，每一对时间边界也是完全相等的。

请注意，SPEAKER 层和 CONTENT 层的时间边界必须保持一致。也就是说不管点击哪一层的时间边界，另外一层一定是空心蓝色，而不是实心蓝色。

（二）标注全局文件

GLOBAL 层主要标注语音文件的一些全局信息，包括说话人性别信息和语种信息（方言区）。标注格式如下：

[speaker]:[空格]1[空格]性别,[空格]2[空格]性别;[空格][language]:[空格]1[空格]方言区,[空格]2[空格]方言区
例如：[speaker]: 1 male, 2 female; [language]: 1 普通话, 2 普通话

SPEAKER 层需要标注的是说话人信息，“说话人”取值为以下两种：1、2，分别表示说话人1、说话人2。（说话人1、2仅标注在文字段上，符号段不标注）；
如果是客服类对话，则 SPEAKER 层的“说话人”取值为1的语音，必须是话务员；用户的语音取值为2；
客服定义为奇数，用户为偶数；（客服一定是和用户有直接对话，否则不算客服）。

（三）CONENT 层的语音标注

CONTENT 层正常语音的标注：
（1）数字的标注，用简体中文；
```
例如：
“27” → “二十七”；
“我的电话是2381832” → “我的电话是二三八幺八三二
```
（2）注意边界线：两层始终对齐；
（3）交叉语音：SPEAKER 层不标注内容，CONTENT 层标注“+”；
（4）边界线导致的半个语音：可用 [*] 或 [UNK] 来表示；[*] 和 [UNK] 取决于是单段的听不清，还是在语音中听不清；
（5）每个时间段的长度最多不能超过 8s，也不能太短，一般在 5-6秒；
（6）可舍弃包含不进来的字；
（7）英文内容标注：
```
例如：
“网址是三w点sina点com”；     
“二三八幺八三二艾特qq点com”；（不要写@）      
“请以井号键结束”；（不要写#）
```
（8）英文内容标注：每个字母中间用空格隔开
```
例如：good表示单词读音，g o o d则表示字母读音。
例如：我的编号是f m s幺三二
```
（9）“恩、阿” 统一用口字旁的。
噪音的标注：
CONTENT层短暂噪音的标注：
所有此类标注都是中括号与语音内容的组合，不要标注时间边界。
（1）听不清的一个字/英文单词直接在句子中标注 [UNK]；
```
例如：二三八幺八[UNK]二
```
（2）两个或者两个以上听不懂的字，标注[*] ；
```
例如：听不清的长句、方言、大段的英文句子、拿着话筒和其他人说话
```
（3）短暂的笑声：直接在句子中标注 [LAUGH]；
（4）短暂的由说话人发出的干扰浊音：直接在句子中标注
[SONANT]；
```
例如：咳嗽声、打喷嚏、清嗓子
```
（5）系统播出的语音提示：[PROMPT] 系统自动播放的语音内容，而非说话人的语音内容（第二层不用标说话人）；
```
例如：[PROMPT] 欢迎致电我公司现在由一号客服代表为您服务
```
CONTENT层持续噪音的标注
需要标注中括号和时间边界，SPEAKER层不标注内容
（1）明显的静音段（大于500ms）：[SIL]
（如果空白段没有任何声音，可以空着，后期技术处理）
（2）各种垃圾声音：[ENS]
```
例如：连续的拍桌子、连续的敲击声、持续的各种环境噪音（大于500ms）
```
（3）连续的笑声：[LAUGH]
（4）持续的音乐声：[MUSIC]
```
例如：
    · 唱歌声（有歌词和旋律） 
    · 哼唱（没有歌词，但有旋律） 
    · 口哨声  
    · 可能是别人唱歌、演奏，也可能是背景的电视、收音机发出的音  乐和歌声
    · 口哨声  
    · 包括持续时间较长的彩铃声
```
（5）录音及电信系统引起的噪声：[SYSTEM]
包括电话按键音dtmf、电话忙音 beap、录音系统的其他噪音等，都是通信系统主动发出的声音，而不是摘机、挂机或干扰带来的咔啦或呲呲杂音。
```
一般会用的噪音符号：+，[*]，[ENS]，[UNK]，[SONANT]，[LAUGH]，[PROMPT]，[SYSTEM] 
```