前言
- 本文简要记录阅读何向南老师关于CRS的综述文章:Advances and Challenges in Conversational Recommender Systems: A Survey
- SIGIR2020-CRS-turorial
- 承接上篇,介绍CRS中multi-turn conversational strategy的具体内容。
在前两篇介绍的基础上,文中对现有CRS方法进行了比较详细的分类
上表中的策略即表示是否存在多轮对话策略
多轮对话策略关注“when to ask ”或更广义上讲是“how to maintain the conversation”。 一个好的策略不仅可以在适当时间做出推荐,并灵活地适应用户的反馈,而且还可以保持对话主题并适应不同的场景,保证用户的使用体验。
when to ask
目前大多数CRS模型并没有仔细考虑继续提问还是提出推荐的对话策略。 但良好的对话策略对于提升交互过程的用户体验必不可少。 该策略可以是基于规则的策略,如每k轮提问进行一次推荐,随机策略或基于模型的策略
在早期的SAUR模型中,设计了一个简单的触发器(trigger)在推荐物品的置信度高于阈值时进行推荐: 触发器简单地实现为最可能点击物品的得分函数,如果候选物品的得分足够高,则触发推荐步骤,否则系统将继续询问问题
尽管这些策略简单明了且易于控制,但无法捕获丰富的语义信息,例如,现在正在谈论哪些主题,或者对主题的探索程度如何。这些信息可以直接影响对话主题。最近,强化学习(RL)具有对复杂环境进行建模的潜力,将RL纳入CRS框架是很自然的。例如,CRM使用RL模型,基于NLP对话系统中的belief tracker来跟踪用户输入,并输出一个隐含向量来表示对话的当前状态以及到目前为止已捕获的用户偏好。之后,将信念跟踪器的状态向量输入到深度策略网络(Deep Policy Network, RL)中,以决定是推荐商品还是继续提问。具体来说,有k + 1个动作:k个动作用于选择一个要问的方面,最后一个要提出推荐。最后,该模型从环境中获得奖励,其中包括用户对问题的反馈以及对推荐结果的自动评估所产生的奖励。
具体针对对话策略的分类如下:Conversation Strategies from A Broader Perspective
尽管从查询-应答交互中学习可以使系统直接理解并响应人工查询,但是系统仍然缺乏智能。一个原因是,大多数CRS模型都假设用户始终牢记他们想要的,任务是通过提问来获得偏好。但是,需求推荐的用户可能对他们真正想要的东西没有一个清晰的想法。就像人类向朋友询问餐馆的推荐一样。在此之前,他可能没有确定的目标,他的决定可能会受到朋友意见的影响。
因此,CRS不仅应提出澄清问题并询问用户,还应负责引导主题并影响用户的思想。为了实现这一目标,一些研究试图丰富CRS的某些个性或赋予CRS主导对话的能力,这可以使对话更具吸引力和吸引力。这些研究也可以在主动对话的领域(proactive conversation)中看到。
-
Multi-topic Learning in Conversations 多主题学习
MCGC-ACL2020提出了一项新任务,该任务将对话推荐置于多种类型对话的背景下。模型可以在考虑到用户的兴趣和反馈的情况下,主动自然地将对话从非推荐对话(例如问题回答或闲聊)引导到推荐对话。并且在交互过程中,系统可以学习在多个目标之间灵活切换, 具体而言提出了一个多目标驱动的对话生成(MGCG)框架,由目标计划模块和目标指导的响应模块组成。目标计划模块可以进行对话管理以控制对话流,该对话流以推荐为主要目标,并完成自然主题转换为短期目标。学习多种类型的对话模型需要支持多种类型对话的数据集。这篇工作中构建了一个具有多种交互类型的数据集,DuRecDial,通过人工标注处理得到。 -
特殊能力:推荐,谈判和说服
除了偏好之外,智能交互系统的设计和推荐还要求CRS具有不同的能力以应对不同的情况。帮助系统提高主题引导能力。例如,在对话搜索中,传统工作主要试图通过解决歧义来更好地理解用户的信息需求,研究中提出利用用户可能要在下一步中提出的问题来引导对话。例如,如果用户查询“日产GTR价格”,则系统可以提供问题推荐,包括帮助用户完成任务的推荐(“租用日产GT-R多少钱?”),权衡一下。选项(“日产GT-R的优缺点是什么?”),探讨一个有趣的相关主题(“日产GT-R是最终的有轨电车吗?”)或了解更多详细信息(“ 2020日产要多少钱” GTR费用?”)。这些问题建议可以使用户获得身临其境的搜索体验,并获得多样而富有成果的未来成果。
还有些研究尝试说服用户采取某些行动,这对于会话推荐非常有帮助。他们根据对话情境训练模型,以学习和预测语料库中使用的不同类型的说服策略(例如,逻辑诉求或情感诉求)。然后分析说服了被说服的用户的背景(个性,道德,价值体系,意愿)更好地适应了哪些策略。尽管这些工作的一些已应用于对话系统中的特定应用场景,但这些技术还可以在CRS的多回合策略中采用。
小结
由于刚开始调研CRS相关内容,对本篇综述还有很多地方理解和了解不够,建议读者仔细阅读原文....
网友评论