第33周+《AI入门系列 - 语音识别基本概念3》+林灿业+新学

作者: 林灿业 | 来源:发表于2019-08-11 21:48 被阅读0次

第33周+《AI入门系列 - 语音识别基本概念3》+林灿业+新学
第31周+《AI入门系列 - 语音识别基本概念》+林灿业+新学霸
第32周+《AI入门系列 - 语音识别基本概念2》+林灿业+新学
第34周+《AI入门系列 - 语音合成》+林灿业+新学霸社群
C# 基于Accord.Audio和百度语言识别
第30周+《AI入门系列 - 语音交互的模型及概念》+林灿业+新
Python奇技淫巧之利用协程加速百度百科词条爬虫
阅读“百度语音文档”
CMU Sphinx 语音识别入门：语音识别基本概念
第58周+《小白入门学股笔记》+林灿业+新学霸社群

本周说说语音识别中的“全双工”通讯模式和“纠错”功能。

一、全双工通讯模式

“全双工通讯模式”与之对应的还有单工模式、半双工模式，具体的概念理解如下：

1、单工通讯：单向通讯，只能往固定的方向做通讯，只有一条通讯通道，不能逆向通讯，如电视、广播；

2、半双工通讯：可双向通讯，但同时只能往一个方向进行通讯，虽然只有一条通讯通道，但却可逆向通讯，如对讲机，必须一个人讲完，另一个人才能讲话；

3、全双工通讯：可即时双向通讯，通讯双方的信息可实时传送给对方，会有两条通讯通道，每一条通道负责一个方向的通讯，例如手机通讯。

我们在日常沟通对话的过程中，经常是你一句我一句地讲着，甚至会出现多个人同时说话的情况，这是在当面沟通的过程中最自然的交互模式了，对应到语音交互的应用场景，我们沟通的对方变成了机器，如智能音箱、电视机、手机等，要实现以上人和人之间的最自然的沟通模式，那么“全双工通讯”就派上用场了。

拿和智能音箱语音交互举例：人工智能在为你解答问题的时候，也可以同时听到你发出的新指令，无需等待处理完上一个任务后，你再发出新指令，使得语音交互更自然，体验更棒～～，脑补场景如下，随意体验一下：

你说：来首爵士乐吧～

音箱：为你播放你最喜欢的爵士乐～～～

还没等音箱把话说完，你就说：算了，我还是看个电影吧～

音箱：已为你找到最近的热门电影，有XXX1，XXX2，XXX3～～，你想看哪个电影？

··· ···

二、自动纠错

语音交互中还有一个重要的技术是自动纠错，就是当你说错了某个词，或者是发音不准确，说话带地方口音等情况下，系统能够自动纠正过来，能听懂你说的话，并给出正确的回应。大家假想一下，如果某个语音交互产品只能听懂非常标准的普通话，那么每个普通用户都得普通话考个甲级才能使用，哪这样产品可用性就很差，这个产品就会变得非常不美好～

不同类型的错误纠正需要依赖对应的数据库进行纠错，根据数据库的存在地，主要有几种模式：本地数据、本地数据+云端数据、云端数据。

1、以本地数据源进行纠错

比较个性的个人信息，只存储于本地中的数据应用场景，例如手机通讯录、常用系统／网站等～，比如“打开weixin”，很大程度可能会被理解成“卫星”，但当手机中有“微信”这个APP时，优先拿本地的APP列表进行纠正，这时候就就会很高概率理解成“微信”了。

2、以本地+云端数据进行纠错

个人理解，这是一种对本地纠错的补充，如果但本地数据匹配不到合适的对象时，自动转向云端数据库去匹配更合适的对象，或者是按照本地数据和云端数据匹配到对应对象后进行排序呈现，使用本地数据匹配的结果优先呈现，如你说要要听某首歌，优先找到你本地收藏的歌曲，再去匹配云端数据相似的歌曲名，最后做一个排序呈现。

3、以云端数据进行纠错

对于数据量较大，或者实时性较高的业务场景，不适合存储在本地，会存储在云端，纠错时调用云端数据进行纠正，如地图、天气预报等业务，比如说“查询xinjiang2019年1月12日的天气”，知道是天气业务，所以到云端去匹配“xinjiang”的地方，匹配到最后的结果就会是“新疆”，于是去调新疆2019年1月12日的天气情况，通过语音合成技术（TTS）合成语音，并说给你听。