美文网首页
Praat 语音标注

Praat 语音标注

作者: MayJin | 来源:发表于2018-01-29 16:59 被阅读573次

Praat 语音学软件,原名Praat: doing phonetics by computer,通常简称 Praat,是一款跨平台的多功能语音学专业软件,主要用于对数字化的语音信号进行分析、标注、处理及合成等实验,同时生成各种语图和文字报表。

一、Mac 版 Praat 软件的安装

访问官网,下载相应的版本,本实验下载的 Macintosh 版(即Mac 版),官网有详细的安装步骤,概括为:
(1)磁盘映像文件;
(2)下载字体包;

二、Praat 软件的使用

  1. 导入语音文件
    点击 praat —>open —> read from file —> 找到你打开的文件 —> 打 开,文件被添加在了praat 中;
  2. 生成 TextGrid 文件
    选中要转写的语音文件 —> annotate - —> To TextGrid... —>语音文件分层(三层)如下图:


    分层.png

    点击 OK 生成 TextGrid 文件;

  3. 编辑语音和 TextGrid 文件
    同时选中语音文件和 TextGrid 文件 —> View & Edit;如图:


    转写界面.png

三、标注语音文件

(一)时间边界定位
  • 按 Tab 键可以播放语音,再次按 Tab 键可以停止播放语音;

  • command + i:可以放大波形,
    command + o:可以缩小波形,
    command + s可以保存 TextGrid 文件;

  • 添加时间边界的方法为:将鼠标移动到语音波形的相应位置,这时会出现一条虚线以及圆圈,分别点击 SPEAKER 层和 CONTENT
    层对应的圆圈即可。在整个语音文件中,SPEAKER 层和 CONTENT
    层的时间边界的数目是完全一致的,每一对时间边界也是完全相等的。

    请注意,SPEAKER 层和 CONTENT 层的时间边界必须保持一致。也就是说不管点击哪一层的时间边界,另外一层一定是空心蓝色,而不是实心蓝色。

(二)标注全局文件

GLOBAL 层主要标注语音文件的一些全局信息,包括说话人性别信息和语种信息(方言区)。标注格式如下:

[speaker]:[空格]1[空格]性别,[空格]2[空格]性别;[空格][language]:[空格]1[空格]方言区,[空格]2[空格]方言区
例如:[speaker]: 1 male, 2 female; [language]: 1 普通话, 2 普通话
  • SPEAKER 层需要标注的是说话人信息,“说话人”取值为以下两种:1、2,分别表示说话人1、说话人2。(说话人1、2仅标注在文字段上,符号段不标注);
  • 如果是客服类对话,则 SPEAKER 层的“说话人”取值为1的语音,必须是话务员;用户的语音取值为2;
  • 客服定义为奇数,用户为偶数;(客服一定是和用户有直接对话,否则不算客服)。
(三)CONENT 层的语音标注
  1. CONTENT 层正常语音的标注:
    (1)数字的标注,用简体中文;

    例如:
    “27” → “二十七”;
    “我的电话是2381832” → “我的电话是二三八幺八三二
    

    (2)注意边界线:两层始终对齐;
    (3)交叉语音:SPEAKER 层不标注内容,CONTENT 层标注“+”;
    (4)边界线导致的半个语音:可用 [*] 或 [UNK] 来表示;[*] 和 [UNK] 取决于是单段的听不清,还是在语音中听不清;
    (5)每个时间段的长度最多不能超过 8s,也不能太短,一般在 5-6秒;
    (6)可舍弃包含不进来的字;
    (7)英文内容标注:

    例如:
    “网址是三w点sina点com”;     
    “二三八幺八三二艾特qq点com”;(不要写@)      
    “请以井号键结束”;(不要写#)
    

    (8)英文内容标注:每个字母中间用空格隔开

    例如:good表示单词读音,g o o d则表示字母读音。
    例如:我的编号是f m s幺三二
    

    (9)“恩、阿” 统一用口字旁的。

  2. 噪音的标注:
    CONTENT层短暂噪音的标注:
    所有此类标注都是中括号与语音内容的组合,不要标注时间边界。
    (1)听不清的一个字/英文单词直接在句子中标注 [UNK];

    例如:二三八幺八[UNK]二
    

    (2)两个或者两个以上听不懂的字,标注[*] ;

    例如:听不清的长句、方言、大段的英文句子、拿着话筒和其他人说话
    

    (3)短暂的笑声:直接在句子中标注 [LAUGH];
    (4)短暂的由说话人发出的干扰浊音:直接在句子中标注
    [SONANT];

    例如:咳嗽声、打喷嚏、清嗓子
    

    (5)系统播出的语音提示:[PROMPT] 系统自动播放的语音内容,而非说话人的语音内容(第二层不用标说话人);

    例如:[PROMPT] 欢迎致电我公司现在由一号客服代表为您服务
    

    CONTENT层持续噪音的标注
    需要标注中括号和时间边界,SPEAKER层不标注内容
    (1)明显的静音段(大于500ms):[SIL]
    (如果空白段没有任何声音,可以空着,后期技术处理)
    (2)各种垃圾声音:[ENS]

    例如:连续的拍桌子、连续的敲击声、持续的各种环境噪音(大于500ms)
    

    (3)连续的笑声:[LAUGH]
    (4)持续的音乐声:[MUSIC]

    例如:
        · 唱歌声(有歌词和旋律) 
        · 哼唱(没有歌词,但有旋律) 
        · 口哨声  
        · 可能是别人唱歌、演奏,也可能是背景的电视、收音机发出的音  乐和歌声
        · 口哨声  
        · 包括持续时间较长的彩铃声
    

    (5)录音及电信系统引起的噪声:[SYSTEM]
    包括电话按键音dtmf、电话忙音 beap、录音系统的其他噪音等,都是通信系统主动发出的声音,而不是摘机、挂机或干扰带来的咔啦或呲呲杂音。

    一般会用的噪音符号:+,[*],[ENS],[UNK],[SONANT],[LAUGH],[PROMPT],[SYSTEM] 
    

相关文章

  • Praat 语音标注

    Praat 语音学软件,原名Praat: doing phonetics by computer,通常简称 Pra...

  • 语音数据标注工具与平台

    最近在做语音深度学习的项目,整理了一下语音数据标注工具和语音标注平台,供大家参考 语音标注工具–Praat Pra...

  • Python相关库介绍

    silly:生成各种格式和类型的测试数据 语音数据处理:PraatIO提供了读写praat格式文件的工具,它是一种...

  • 音频标注工具

    简介 机器学习需要大量的数据,语音标注工具可以对录制的音频进行文本标注、清洗,以应用于语音识别、语音唤醒所需的数据...

  • 自然语言处理层次

    1 语音 图像 文本 语音识别 光学字符识别 转化为文本 2 中文分词、词性标注、命名实体识别 围绕词语进行的分...

  • 数据标注平台分析与使用经验

    最近在做语音类的深度学习项目,手上有1000小时的数据需要标注,公司内部雇人标注是不太现实的,人员管理起来太麻烦,...

  • 标贝语音数据集标注格式(中文)

    标注格式(中文) 文本格式为 *.txt,一行文字,一行拼音。文字行句首为句子号,句子号由六位半角阿拉伯数字组成,...

  • 用最新NLP库Flair做文本分类

    摘要: Flair是一个基于PyTorch构建的NLP开发包,它在解决命名实体识别(NER)、部分语音标注(PoS...

  • 02-隐马尔科夫模型(HMM)一

    1、HMM定义 1) HMM可用于标注问题,在语音识别、NLP、生物信息、模式识别、等领域被时间证明是有效的算法。...

  • 希腊字母表

    序号大写小写英语音标注音英文汉语名称常用指代意义1Αα/'ælfə/alpha阿尔法角度、系数、角加速度、第一个、...

网友评论

      本文标题:Praat 语音标注

      本文链接:https://www.haomeiwen.com/subject/iasxzxtx.html