美文网首页
开源视频实时翻译大语言模型:Meta AI 的 MuAViC 的

开源视频实时翻译大语言模型:Meta AI 的 MuAViC 的

作者: iCloudEnd | 来源:发表于2023-08-22 16:10 被阅读0次

什么是MuAViC?

MuAViC是第一个音视频语音翻译基准,也是最大的音视频语音识别多语言基准。它包含大约 1,200 小时的跨 9 种语言的转录数据。

在无数的日常情况下,背景噪音——交通声、音乐声、其他人说话的声音——让我们更难理解别人在说什么。人类经常使用来自其他感官的信息,尤其是视觉,来帮助我们交流(正如 Harry McGurk 和 John MacDonald 在 1976 年的研究“听嘴唇和看声音”中指出的那样)。例如,如果您在一场喧闹的音乐会上与朋友交谈,您可能会关注他们的脸部以补充您能听到的内容。

相关文章

网友评论

      本文标题:开源视频实时翻译大语言模型:Meta AI 的 MuAViC 的

      本文链接:https://www.haomeiwen.com/subject/xjsumdtx.html