标题有歧义,夸夸应该加个引号😄
清华夸夸群
刚看到这张截图时第一反应是太秀了,虽然不知道夸的是啥,但是还是非常受用的,治疗效果满分。人生不如意十之八九,想找人无脑夸下自己,又怕丢人,怎么办,简单自己做个无脑夸机器人呗。
直接展示代码:
一行Python代码实现夸夸聊天机器人
治愈神器实现很简单,一行python代码,只要想好怎么夸自己,一行行写下来就可以了,只要你不嫌腻,天天夸,夸到海枯石烂都可以。
当然了,我们这次主要的目的不是夸自己,我们是要解决问题的,什么问题呢,当然是跟平台业务相关的了,就是我们的社区,那这里面有什么问题呢,试想一下,年轻人千辛万苦,克服种种困难才买到心仪的商品,费时费力还费钱,这个时候看到平台上有个社区,想着发个状态上去吧,收获一批赞美,满足一下自己的小心思,结果发上去之后,要么是没有评论,要么评论的不咸不淡,落差太大,幼小的心灵受到巨大创伤,试想以后哪还有动力上来发贴,这个时候是不是很需要一个无脑夸的机器人来捧个场,激发一下虚荣心。
那问题来了,要评论社区用户的状态,肯定不是一行代码可以解决的,那不是欺骗用户感情吗,至少我们也是要花点时间和心思的。
我们主要的目标应该是回复内容关联性和回复个性化,对每个人的状态我们要针对性的回复。这里面其实本质还是一个语义相似度的问题。
我们可以把整个过程拆分成三步
1.收集语料及分析
既然是要做到内容关联性,那语料肯定是要从社区历史评论中拿了,而且我们要做的是夸夸机器人,主题是夸,那自然也需要对评论数据做相应的清洗和筛选,这里面我们涉及到评论打标的问题,在人手不够的情况下,可以考虑半自动打标技术,通过少量数据先训练一个分类模型用来预测评论是否为夸,再通过对剩余评论进行预测取置信度高的评论直接打标,置信度低的评论人为打标,循环积累标注数据。最后我们可以得到一个(动态,夸评论)对的语料集
2.设计语义相似度模型
既然有了语料,那就要开始训练我们的模型了,这里可以借鉴上一篇文章,利用词向量模型召回query,通过计算动态之间的语义相似度(包括文本语义、图片语义和其他语义信息)选择相关评论候选集,再通过蒙特卡洛采样和多臂机策略随机选择一个评论,当然我们也可以通过ESIM等短文本匹配模型训练动态和评论的相关性进行排序选择
3.评论自动生成
评论候选集再多也会有穷尽的时候,既然要做个性化,那内容自动生成就不可或缺,这里的自动生成不是选一条评论自动生成,而是通过语料训练自动生成评论文本,可以使用翻译原理对动态做夸评论的transformer模型,也可以考虑使用GAN的方法生成假评论来拟合真实评论。
之后我们便可以拥有属于我们自己平台的个性化夸夸机器人啦。
本次分享纯属意外,时间有限,只产生个想法,后续会分享具体原理及相关实现。
夸夸v1.0
盗用下别人家的实现效果😄
网友评论