美文网首页新学霸社群
第33周+《AI入门系列 - 语音识别基本概念3》+林灿业+新学

第33周+《AI入门系列 - 语音识别基本概念3》+林灿业+新学

作者: 林灿业 | 来源:发表于2019-08-11 21:48 被阅读0次

    本周说说语音识别中的“全双工”通讯模式和“纠错”功能。

    一、全双工通讯模式

            “全双工通讯模式”与之对应的还有单工模式、半双工模式,具体的概念理解如下:

    1、单工通讯:单向通讯,只能往固定的方向做通讯,只有一条通讯通道,不能逆向通讯,如电视、广播;

    2、半双工通讯:可双向通讯,但同时只能往一个方向进行通讯,虽然只有一条通讯通道,但却可逆向通讯,如对讲机,必须一个人讲完,另一个人才能讲话;

    3、全双工通讯:可即时双向通讯,通讯双方的信息可实时传送给对方,会有两条通讯通道,每一条通道负责一个方向的通讯,例如手机通讯。

            我们在日常沟通对话的过程中,经常是你一句我一句地讲着,甚至会出现多个人同时说话的情况,这是在当面沟通的过程中最自然的交互模式了,对应到语音交互的应用场景,我们沟通的对方变成了机器,如智能音箱、电视机、手机等,要实现以上人和人之间的最自然的沟通模式,那么“全双工通讯”就派上用场了。

            拿和智能音箱语音交互举例:人工智能在为你解答问题的时候,也可以同时听到你发出的新指令,无需等待处理完上一个任务后,你再发出新指令,使得语音交互更自然,体验更棒~~,脑补场景如下,随意体验一下:

    你说:来首爵士乐吧~

    音箱:为你播放你最喜欢的爵士乐~~~

    还没等音箱把话说完,你就说:算了,我还是看个电影吧~

    音箱:已为你找到最近的热门电影,有XXX1,XXX2,XXX3~~,你想看哪个电影?

    ··· ···

    二、自动纠错

            语音交互中还有一个重要的技术是自动纠错,就是当你说错了某个词,或者是发音不准确,说话带地方口音等情况下,系统能够自动纠正过来,能听懂你说的话,并给出正确的回应。大家假想一下,如果某个语音交互产品只能听懂非常标准的普通话,那么每个普通用户都得普通话考个甲级才能使用,哪这样产品可用性就很差,这个产品就会变得非常不美好~

            不同类型的错误纠正需要依赖对应的数据库进行纠错,根据数据库的存在地,主要有几种模式:本地数据、本地数据+云端数据、云端数据。

    1、以本地数据源进行纠错

            比较个性的个人信息,只存储于本地中的数据应用场景,例如手机通讯录、常用系统/网站等~,比如“打开weixin”,很大程度可能会被理解成“卫星”,但当手机中有“微信”这个APP时,优先拿本地的APP列表进行纠正,这时候就就会很高概率理解成“微信”了。

    2、以本地+云端数据进行纠错

            个人理解,这是一种对本地纠错的补充,如果但本地数据匹配不到合适的对象时,自动转向云端数据库去匹配更合适的对象,或者是按照本地数据和云端数据匹配到对应对象后进行排序呈现,使用本地数据匹配的结果优先呈现,如你说要要听某首歌,优先找到你本地收藏的歌曲,再去匹配云端数据相似的歌曲名,最后做一个排序呈现。

    3、以云端数据进行纠错

            对于数据量较大,或者实时性较高的业务场景,不适合存储在本地,会存储在云端,纠错时调用云端数据进行纠正,如地图、天气预报等业务,比如说“查询xinjiang2019年1月12日的天气”,知道是天气业务,所以到云端去匹配“xinjiang”的地方,匹配到最后的结果就会是“新疆”,于是去调新疆2019年1月12日的天气情况,通过语音合成技术(TTS)合成语音,并说给你听。

    相关文章

      网友评论

        本文标题:第33周+《AI入门系列 - 语音识别基本概念3》+林灿业+新学

        本文链接:https://www.haomeiwen.com/subject/vkoudctx.html