美文网首页
AI 语音交互产品一点点入门

AI 语音交互产品一点点入门

作者: 松下言 | 来源:发表于2018-07-21 16:22 被阅读0次

    周更

    首先我简单介绍一下我自己以及讲一下我写这篇文章的目的

    我于四月的一场小爱的面试中决定今后要进入人工智能领域,从事GUI与VUI的相关工作。现在初入AI大门,目前是一个完完全全的小白状态。我相当于在这个领域从零开始,所以我想每周都讲一下我这一周关于语音产品相关的学习与工作经验。算是对于每周的一个回顾与总结,我写的所有东西都是我这一周自学或者在工作中感受到的,很可能会有错,因为我毕竟没有任何相关知识。但是我相信随着我慢慢的领悟和学习,我会有所进步。

    因为是刚刚开始,所以我学的东西也是从基础开始,不会一上手就是很多高端大气的专业名词。所以我相信我的这些学习,对于那些很多像我一样的同学来说是有帮助的,可能更接地气一点,对吧。

    首先是第一节:

    因为我刚刚进入滴滴一个月,很多东西都处于刚刚了解的状态。所以这一节我会讲一下这一个月我学到的东西。

    我的部门是AI Labs,我参与的项目是DIOS,一个车载大脑,说白了就是一个车内的系统,用来智能操控的车内的一切给车主更好的体验,更全的服务,更安全的驾驶。不知道有没有讲明白,再说简单一点就是,在车里你可以对我们的智能助手(类似于小爱音箱,当然我这里是智能后视镜和车机)说一句话“打开天窗”,然后天窗就打开了。你再跟它说一句”我要查看我家的情况。”然后他就会告诉你,当然这很智能了,现在肯定没做到,我主要想表达,我们再做一个系统,智能的车载系统,便捷的为车主服务。

    当然我们做的系统需要一个承载体,那就是我目前在做的第一个产品——智能后视镜,现在市面上已经有一款了就是米家的智能后视镜,所以我们的目标就是追上它。

    好了,我讲了一堆铺垫接下来进入正题。我这一个月干了啥,学到了啥。

    进入公司的第一个任务就是一个非常基础的工作,通过两千条用户的话设计一个场景的交互设计规范。什么意思呢?

    我拿到了一堆用户可能对智能设备说的关于全局设置的话:空调温度开大点;放大点音量;我希望音量减小一点等2000条。我需要将这两千条数据人工进行归类,然后设计一个场景的规范。

    我整理的这样一张表,整张的我就不放了,不知道涉不涉及公司机密。操作就是我通过两条整理出来的不能类别的操作;描述就是对这些操作进行解释,优先级就是我自己认为的重要以及可实现性的综合考虑,当然这个最后项目老大会统一定的。用例就是从那两千多条中随便拿出来的几个,针对于我归类的不同操作所说的话。这个表是给开发的同事看的,所以一切都是为了让他们懂。

    那 domain intent slot就是开发的同事根据我总结的表来写的。

    domain 是我这张表的场景,电话场景是 call , 导航场景是 route, 在这里是就是set up 。就是说整张表所有的操作对应的domain都是set up 。

    intent 是这个操作对应的意图是啥,打开音乐就是open_music ,关闭音乐就是close_music,升高音量是amplify_vol ,当然这些单词都是开发人员定义的,可能每个公司和每个公司都不一样。(也许一样,我不知道)

    slot 是啥,这个理解起来有点难,我上另一张图。

    首先什么是前置意图,比方说我对小爱说“查询今天天气”它会告诉我今天天气怎样。但是我紧接着跟它说“明天呢”,我的潜在意图是明天天气怎样,这时候小爱就会告诉我明天天气怎样。但是如果我一开始不说“查询今天天气”,而是直接说“明天呢”,小爱就不会懂了。所以“明天呢”的前置意图就是查询天气。而“查询今天天气”就没有前置意图。

    然后意图就是我说一句话的意图是啥,和上面的intent是一样的都是开发定义的。

    回应语句就是后视镜会回答啥。

    pattern内容很多,稍后讲

    接下来就是slot也叫槽位或槽,我简单的理解就是  该句话所缺少的关键信息。比方说,我对智能后视镜(以下均为后视镜)说“我想听小说三国演义”那么三国演义就是这句话的槽。因为如果我不说三国演义,我只说“我想听小说”它就不知道要放什么小说了,它就会自己随随便便放一个小说。同理“我想听小说”在这时候 小说 就是一个slot(槽)。因为我只说“我想听”这个什么关键信息都没有,后视镜不知道你要干嘛。“我想听罗贯中的三国演义”那这句话有几个槽呢?答案是两个,第一个是罗贯中作者的槽,第二个三国演义,名字的槽。开发人员对不同的槽都有不同的定义。类似于三国演义这种小说名槽就是name,作者是byartist,看上图。

    是否必填 就是 如果没有这个槽,这句话的意图是否能成功执行。

    比如说我的意图是听小说,小说就是必填槽。如果的意图是听小说三国演义,那么三国演义就是必填槽,若三国演义能命中其他资源,比如有三国演义也是一首歌,那么小说也是一个必填槽。

    追问语句就是在必填槽没有填写的情况下,后视镜追问用户的获取必填槽的话术。比如说我说“我要定一个闹钟”这时候具体时间就是一个必填槽。这时候没有这个slot(槽)就必须要获得,就要追问“请问您要定在哪个时间”这句话怎么说不固定,就需要产品同学定义了,后视镜也可以说“你倒是告诉我时间啊”,无所谓,看产品的定义是啥,关键是拿到这个槽。

    是否支持多值就是这个句话时候可以添加很多标签。我说“我要听歌”可以命中听歌的意图,我可以说“我要听一首火爆的,流行的,好听的歌。火爆的,流行的,好听的就是多个标签 - 多个值。

    说好要讲pattern,时间太紧张。我先放几张图吧

    相关文章

      网友评论

          本文标题:AI 语音交互产品一点点入门

          本文链接:https://www.haomeiwen.com/subject/laetmftx.html