1 .概述
萌萌哒皮卡丘- 如今,机器人崛起,而语音正是机器人的一个必要的技能,想想如果一个机器人听不懂人说的话,那它只能是机器,而不能冠以“人”之名。
- 科大讯飞,想必是现在最火的一家公司之一吧,其拥有好几年的技术经验的积累,观望以前,技术的不成熟:神经网络算法的不成熟,硬件上的瓶颈,等等,这些,都让从前的科大讯飞吃尽了苦头。但是,现在却不同了,随着硬件上关键的突破,软件上的突破,机器学习,语音分析的成熟,再加上这些年来的技术积累以及数据的沉淀,科大讯飞也就迎来了她的春天。
2 .语音听写
语音听写- 语音听写,主要是将连续的语音快速识别为文字的过程。这是一个非常有用的接口,它让机器人实现了听懂人的话。而,更加人性化的是,开发者可以针对某一个应用,根据特定场景下的用词,按照格式上传一些高频的词语,让科大的分析引擎通过机器学习,从而对这些词语有着更高的识别率。
- 而且,科大官方也提出了几个听写的模型,通俗理解就是一些场景,针对这些场景,某些词语的识别率更高。
3.命令词识别
命令词识别- 在线命令词识别的语法文件根据作用范围不同,又分为应用级在线语法文件和终端级在线语法文件。
- 应用级在线语法文件,即语法文件绑定 Appid。应用级在线语法文件需在讯飞开放平台页面进行设置,一旦设置成功,不同设备上的同一应用将默认启用此在线语法。具备统一管理语法,语法更新无需更新客户端 App 的优点。
- 终端级在线语法文件,则是语法文件绑定某一终端,通过 App 先本地构建语法文件,再上传该语法文件获取相应的ID即 Grammar ID, 然后在使用识别功能前指定 Grammar ID 以启用该语法文件。
- 在线命令词识别默认启用应用级在线语法文件。如果又指定了终端级语法文件的 Grammar ID,那么两种类型的语法文件同时生效,无优先级顺序,最终识别结果按照结果置信度降序返回。
命令词,诸如:芝麻开灯,芝麻关灯等等,然后去做一个识别。
而这个接口可以集成为在线也可以为本地。
4.语音合成
语音合成- 与语音听写相反,合成是将文字信息转化为可听的声音信息,让机器像人一样开口说话。
- 语音合成能配置很多东西:如,发音人(男童?女孩?大妈?大叔?),语言(英语,中文)等等。
- 同样,这个接口可以集成为在线也可以为本地。
5.语义理解
语义理解- 如果说,语音听写接口是一名翻译者,那么语义理解就是一名交流者。翻译者只是纯粹的翻译,而不加个人的感情,而交流者,却是专心的理解你的话,恰到好处地回答你的问题,解答您的困扰。
- 语义理解就是这个样子,开发者通过构建自己的语义库(其实就是一问一答), 能让机器人开始理解人类。
- 此接口支持文本的语义理解和语音的语义理解。但是不支持离线。
6.语音评测
语音评测- 语音评测是通过智能语音技术自动对发音水平进行评价、发音错误、缺陷定位和问题分析的软件系统。
- 同过设置,可以设置为评测英文,中文。
7.声纹识别
声纹识别- 声纹识别(Voiceprint Recognize),是一项根据语音波形反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。声纹识别所提供的安全性可与其他生物识别技术(指纹、掌形和虹膜)相媲美,且只需要电话和麦克风即可,数据采集极为方便,造价低廉,是最为经济、可靠、简便和安全的身份识别方式。
8.其他
- 人脸识别,楼主没使用过,楼主倒是用过Face++的,还挺可以的,收费版应该更好。
- 语音唤醒,收费级别的接口,没用过。
网友评论