由于最近要设计游戏智能助手的产品,所以对行业智能助手进行研究。总体来看,当前智能助手运用的深度学习不能做到真正的“讲人话”,多轮对话的推理主要靠人力来填表,因为人工智能不能解决基于常识和世界模型的推理。在深度学习还是主流技术的情况下,AI产品要靠设计来补,domain的选择决定了背后对话系统的占比。
一、行业智能助手排名
最近查阅了一些视频资料,视频中的智能助手表现确实让人叹为观止。总的来看,目前表现准确率最高的是google assistant、其次是微软Cortana、垫底的则是Siri。
目前的智能助手在语音识别方面已经很成熟了,在语音表达方面,google assistant是做的最好的,拟人化做的非常好,几乎分辨不出是不是机器在回答,不像Cortana和Siri的声音那么一板一眼。
智能助手行业技术现状二、关于人工智能将要颠覆人类的行业争论
马一龙和霍金担心的人工智能,是由人造出来的真正的智能,即通用人工智能(AGI, Artificial General Intelligence)甚至是超级智能(Super Intelligence)。
而Yann LeCun 和Hinton指的人工智能则是指的当前用来实现“人工智能效果”的技术(基于统计的机器学习)。这两位的观点是“用这种方式来实现人工智能是行不通的”。
两者本质是完全不同的,一个指的是结果,一个指的是(现在的)过程。所以关于人工智能是否颠覆人类的争论其实在于对人工智能理解的不一致。
三、当前多轮对话的本质是填表
深度学习是当前人工智能的主流技术基础,应用在智能助手的对话系统中。深度学习主要带来语音识别和自然语言理解,即识别意图和实体。
原来的人工智能是提取关键词,如果这句话中没有出现“订机票”这三个关键词则机器无法执行指令,自然语言理解可以帮助机器在没有关键词的情况下识别用户意图。比如经过训练后,机器能够识别“帮我推荐一家附近的餐厅”,就不属于“订机票”这个意图的表达。
除此之外,但凡涉及任务型的对话还需要需要多轮会话,这一块才是对话系统的核心。多轮对话目前都由人工填表实现。如果你并不懂技术,但是又要迅速知道一家做对话AI的水平如何,到底有没有黑科技,你只需要问他一个问题:“是不是填槽?”。
顺便说一下,我们经常听到有些人说“我们的多轮对话可以支持xx轮,最多的时候有用户能说xx轮”。现在大家知道,在任务类对话系统里,“轮数的产生”是由填表的次数决定的,那么这种用“轮数多少”来衡量产品水平的方法,在这个任务类对话里里完全无意义。
一定要有意义,也应该是:在达到目的、且不影响体验的前提下,轮数越少越好。
目前填表的工作都是人工进行的,如果机器可以实现填表,则是重大突破。
即使人工填表,在机器执行过程中也无法识别逻辑。
四、人工智能真正的挑战是思维:基于场景、常识、世界观的理解
1、基于场景:我要喝点东西,在下午13:00和晚上22:00,给到的推荐是完全不一样的。
2、基于常识:看到周杰伦会想到他的东风破。
3、基于世界观:AI中的麦肯锡代表的意义要基于常识才能理解
要做到真正意义上的自然语言对话,至少要实现基于常识和世界模型的推理能力。而这一点如果能实现,那么我们作为人类,就可能真的需要开始担心前文提到的智能了。
对话智能类的产品最核心的价值,是进一步的代替用户的重复思考。创造智能专家才是终极目标,目前能创造的只是智能客服。
五、人工智能行业应用现状
to C的助理产品做不好,是因为解决不了“如何获得用户的世界模型数据,并加以利用”这个问题;
to B的对话智能公司为何很难规模化?(因为场景模型是手动生成的)
六、AI产品设计的思路—技术不够、设计来补
不要指望AI真的能给你的产品带来智能,如果真的可以话还要你干什么。
对于对话类产品的设计,以现在深度学习的基础,语义理解应该只占整个产品的5%-10%;而其他的,都是想尽一切办法来模拟“传送”这个效果——毕竟我们都知道,这是个魔术。先设定好产品边界,设计好“越界时给用户的反馈”,然后在领域里面,尽可能的模拟这个魔术的效果。选择产品的Domain时,尽量远离那些严重依赖世界模型和常识推理,才能进行对话的场景。如果只是识别就占了你家产品的大量心血,其他的不去拉开差异,基本出来就是智障无疑。
在产品研发方面上,如果研发团队能提供多种技术混用的工具,肯定会增加开发团队和设计的发挥空间。这个做法也就是DL(Deep Learning) + GOFAI (Good Old Fashioned AI) 的结合。GOFAI是John Haugeland首先提出的,也就是深度学习火起来之前的symbolic AI,也就是专家系统,也就是大多数在AI领域的人都看不起的 “if then…”
DL+GOFAI 这个前提,是当前一切后续产品设计思路的基础。
网友评论