看命的冷启动
如前所述,一篇内容在推荐初期的冷启动阶段,更多的是基于Item-Based的特征探索。
如果内容本身的特征不足,就极容易造成冷启动的偏差,影响后续的推荐效果:
- 文章由于有更丰富的文本资源,通常冷启动的准确性会好很多。
- 对于视频 和 短内容来说,由于文本信息过短,则往往容易出坑。
先来看几个例子:
- 视频标题:普京曾经实习的单位,最牛逼的国家狗仔队是如何工作的。
- 短内容:感恩一起战斗的日子,感谢我的战友
- 视频标题:堪比电影中出现的场景:死神来了!
第一个标题,拆分开有三部分【普京】、【单位、实习、工作】、【狗仔队】
第二个短内容,从文本特征上来看,基本上命中【战斗、战友】
第三个标题,只从标题上来看基本上命中电影【死神来了】
但事实上,第二个短内容的场景是,某个艺人在戏剧杀青后的感言。
第三个视频的内容描述的是一场车祸,内容如下:
堪比电影中出现的场景:死神来了!
上述三个内容,除了第一个内容命中了“普京”,使得其冷启动不至于太偏之外,其余的两篇内容基本上死在了冷启动阶段。
先天不足病,后天不足命。
除了特征缺失导致的推荐问题外,还存在一类生不逢时的问题。如在王宝强事件时,基本上所有的娱乐新闻都被这个热点事件盖掉了。如果有新媒体创作的朋友们,应该都对避热点、蹭热点深有同感。
更微观的粒度上,在一次刷新当中,露出位置、上下文关系等都会对文章的冷启动推荐构成影响。
冷启动的改命?
从推荐系统全局来看,冷启动作为一种探索行为,客观上对于系统而言是有损的。优化冷启动,不仅是改进单篇内容推荐效果的诉求,同时也是优化整体系统的诉求。
五行缺水的人,起名或许会包含“淼”,以弥补“命格的不全”。对于内容推荐来说亦如是,缺什么、补什么。
- Item信息层面的补充:
- 从展示样式来说:在“多图+标题”的展示样式下,一篇文章如果没有足够的封图会影响其冷启动点击率,故从引导作者创作的角度来看,应当建议其做更好的传播性的设置。
- 从文本信息量来说:对于视频,应当引导作者补充摘要信息、标签信息,让内容更好的被机器理解。(有些公司是通过组织人工打标签、评级、纳入结构化信息来解决这一问题的)
- User反馈层面的补充:
- 更好的理解不同内容的消费特点,对于不同的载体给出略有差异性的产品设计。进一步,对用户不同行为给出不同的主观价值评估建议,从而提升冷启动的点击价值。
网友评论