Meta 发布语音识别大模型，支持1100多种语言

作者: 啊阿伟啊 | 来源:发表于2023-05-27 12:15 被阅读0次

CMU Sphinx语音识别入门：构建语言模型
加速在金融、音视频行业应用，腾讯云发布专属语音识别模型
Kaldi 安装与简介
简书一个功能优化----增加语音留言
重磅！MaxCompute助力阿里开源自研语音识别模型DFSMN
Speech Framework
深度学习第10次作业机器学习循环序列模型
这是一篇语音输入的文字
扔了么 - 垃圾分类，从我做起
技术新闻记录

图片来源于官方博客：https://ai.facebook.com/blog/multilingual-model-speech-recognition/

[人工智能] [大模型] [Meta] [语音识别]

Meta 公开语音识别项目MMS（Massively Multilingual Speech）相关模型和代码。支持 1100 多种语言。

主要包括 1个多语言数据集，3个精调模型，1个对齐工具。

1个多语言数据集

1,100 多种语言标记数据
近 4,000 种语言的未标记数据

3个主要的精调模型

任务	任务英文名称	支持语言种类	效果
语音转文本	ASR（Automatic Speech Recognition） STT（Speech To Text）	1107 种	在FLEURS基准上，对比OpenAI 的 Whisper，MMS语言种类扩大11倍，且表现更好
文本转语音	TTS（Text To Speech）	1100 多种	在VoxLingua-107基准上，对比已有的模型，MMS在4000多种语言的规模下，表现不俗
语言识别	LID（Language Identification）	4000 多种	生成的语音质量很好。（官方提供了一段效果的演示，可以在博文中查看）

FLEURS基准上单词错误率比较

VoxLingua-107基准上 LID 任务错误率比较

1个对齐工具

对齐工具包括

基于100多种语⾔的现有数据上训练的对⻬模型
对齐算法，已经添加到PyTorch中

遇到的挑战

挑战一：数千种语言语音训练数据的获取

挑战：数据范围广，需要获取数千种语言的语音数据

方法：使用宗教文本，比如圣经。这些内容被广泛翻译、传播和录音。

结果：

创建了1,100 多种语⾔的新约读物数据集，每种语⾔平均提供32⼩时的数据录音。
使用各种其他基督教宗教读物的⽆标签录⾳，将可⽤语⾔的数量增加到4000多种。

即使在宗教内容的数据进行训练，且男性的数据样本更多的情况下，Meta认为由于使⽤了连接主义时间分类⽅法，模型在对男声和女声的识别效果同样出色，也没有过度偏向于产⽣更多的宗教语⾔。

挑战二：数据预处理

挑战：语音时间长，需要将文本和语音对齐

方法：在100多种语⾔的现有数据上训练对⻬模型，并将该模型与⼀种⾼效的强制对⻬算法结合使⽤，该算法可以处理⼤约 20 分钟或更⻓时间的超⻓录⾳。

对齐算法已经封装到PyTorch，结合对齐模型，可以让其他研究人员创建新的语音数据集。

挑战三：语音时长短，无法从头开始训练模型

挑战：每种语⾔32⼩时的数据不⾜以训练传统的监督式语⾳识别模型

方法：在已有语音模型 wav2vec 2.0 之上，使用数据进行微调。

wav2vec 2.0 是 Meta 之前关于⾃监督语⾳表示学习的⼯作，在其上微调可以⼤⼤减少了训练良好系统所需的标记数据量。

局限

存在语⾳到⽂本模型可能会错误转录选定单词或短语的⻛险。
根据输出结果，可能会产生攻击性和/或不准确的语⾔。

Meta 发布语音识别大模型，支持1100多种语言

1个多语言数据集

3个主要的精调模型

1个对齐工具

遇到的挑战

挑战一：数千种语言语音训练数据的获取

挑战二：数据预处理

挑战三：语音时长短，无法从头开始训练模型

局限

相关资料

相关文章

CMU Sphinx语音识别入门：构建语言模型

加速在金融、音视频行业应用，腾讯云发布专属语音识别模型

Kaldi 安装与简介

简书一个功能优化----增加语音留言

重磅！MaxCompute助力阿里开源自研语音识别模型DFSMN

Speech Framework

深度学习第10次作业机器学习循环序列模型

这是一篇语音输入的文字

扔了么 - 垃圾分类，从我做起

技术新闻记录

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读