引言
在冷启动环节里,应用推荐技术本质上还是以“留住用户”为第一要务:尽快发现用户的主要兴趣点,并推荐和这一兴趣相关的内容以换取更高的点击率。而当新用户已经成了老用户,在已经实现短期留住用户的前提下,推荐系统需要在一定程度上牺牲短期点击率来探索用户更广泛的兴趣,从而获得用户长期留存率的提升。
兴趣探索对推荐系统而言是绕不开的一环,可以从内容供给和用户消费两个角度分别切入。
一、内容供给的角度
如果我们将内容推荐系统比作一家超市,那么在商品供给层面,超市需要做的就是不断地覆盖市面上值得引入的新商品,无论是自制熟食、农场直供,还是进口商品等。品类、品牌和价格区间的全覆盖能够帮助超市更好地服务于消费者。内容推荐系统在内容资源的建设上,也同样致力于提升品类、品牌的覆盖度。超市引入了新的货品或品牌供应商,会在显著位置设置堆头或展示位来帮助消费者建立认知;内容推荐系统引入了新的内容品类或创作者,同样需要让这一类内容尽快通过探索找到基础用户。
内容探索能够让我们对系统内的内容分布和内容价值体系有更好的认知。
在系统体量较大的情况下,一个确实有用的方法是“大力出奇迹”,即不考虑所有先验信息,直接将内容交给推荐引擎来判断。如果新类目的展示量过低,就调整新品类内容的加权系数,以保证内容能够展示在一定规模用户群体的信息流中,即以规模换效果。
“姜太公钓鱼,愿者上钩”,在保证展示量的前提下,这种生推的方式通过累积用户的点击行为能够逐步挖掘出新品类的受众群体。对应到超市的场景下,或许就是你走进超市入口那个打着新品促销招牌的堆头,通过流量折损的方式让消费者知道这一新品牌,并交予消费者尝试和判断。如果你喜欢上了某种新品,后续就能够在超市对应的位置找到此类商品。
以嘻哈音乐为例,《中国有嘻哈》让这一长期小众的文化迅速升温,将嘻哈音乐的内容强曝光在大众面前。不同人群的行为在大曝光量下都得以挖掘:已有认知的用户继续保持自己的偏好(喜欢或不喜欢),之前没有足够认知的用户在经过多次曝光之后,也能够慢慢建立认知,其偏好行为和点击行为趋于稳定和收敛。
“大力出奇迹,奇迹有概率。”生推的方式通常适合大的品类或内容品牌。比如,微博引入了某国际球星,那么直接送一次全局的开屏曝光也未尝不可。大品类内容是具备大规模内容生产能力和内容消费需求的,即便是生推,点击率的损失也不会太高,很可能在百万规模展示后,就能够很好地探索出这一兴趣点下的用户群体了。
但对一些小众的品类或品牌、规模较小的平台而言,采用生推方式的收敛速度就太慢了。比如,一个小众类目预估只有千分之一的受众,那么对日活跃用户达千万的应用而言,全平台受众也只有万量级。将这个品类的内容展示一百万次,预估点击人数也只有一千,再考虑到目标受众有可能错过或误点击,其效率是很低的。
同样不适合生推的类目还有容易引起争议的、令人反感的内容品类。比如,恐怖类内容毋庸置疑是有大量拥趸的,但如果系统引入了此类内容后进行广泛的用户探索,将不出意料地收到海量的用户负面反馈。兴趣探索的前提是在尽量不引起用户反感的情况下,损失点击率进行探索,点击“不感兴趣”显然比略过不点击对用户的伤害更大。
由于生推的方式太过于简单粗暴,为了让这个过程显得稍微有策略一些,我们引入了专家系统的先验知识。基于专家的判断制定简单的人群定向规则,用规则引导新品类、新品牌的加权分发,将全人群的强展现转为特定人群的强展现,从而换取可能更高的点击率。对应超市的场景,可能是引入了速冻小龙虾,那就将其摆放在夏季热销的烤串、啤酒附近,预判消费者有共同购买的场景从而促进新品销售。同样以嘻哈音乐为例,如果我们对嘻哈音乐的预估是年轻人、喜欢标榜个性、喜欢潮流服饰、街舞等分类内容,那么,嘻哈音乐的分发规则就会被指定为15~30岁,对潮流服饰、街舞等内容有偏好的人群,只给具有此类画像的用户进行探索分发。
二、用户消费的角度
如果我们把对新类目的探索概括为“以规模换效果”,那么,对用户新兴趣的探索便可以概括为“以时间换效果”:只要用户在应用内停留的时间足够长,就有机会通过各种中低频的方式来完善用户画像。
一方面,随着用户停留时长的增加,会产生更多的主动动作,如评论、关注、搜索、调整频道顺序、主动访问不同功能页等,这些主动动作都会给用户画像补充新的信息。比如,当用户搜索特定关键词“嘻哈”时,就代表他对这类内容产生了短期兴趣。
另一方面,系统也会基于用户已有的偏好进行更广泛的兴趣探索。如在用户冷启动部分提到的,系统会基于统计学的概率——喜欢A的用户有多大概率喜欢B,喜欢A和B的用户有多大概率喜欢C——来给用户推荐新领域的内容,逐步探索和完善用户画像。理论上,如果我们划定一定比例的展示量用于新兴趣探索,那么,只要用户的停留时间够长,系统内的兴趣分类就一定能够被探索完毕。
对于用户的兴趣探索,一个值得注意的问题是:小众兴趣的探索和丢失。这个问题本身是因小众兴趣的供给不足引起的。比如,用户的兴趣偏好是“马龙+乒乓球”,但系统内这类内容只有100条,是个很小的兴趣点。
从探索的角度来看,内容太少会导致试错的成本太高,一次负反馈就会影响后续的探索过程:一旦因为上下文、场景等关系用户没有点击,系统就会转向其他兴趣点,从而错过此类内容的发现。
从消费的角度来看,即使系统发现了用户的小众兴趣,但是若干次刷新之后这类内容就被消费完毕了。之后,由于缺乏足够的优质内容供给,用户会在相当长的时间内没有办法触达此类内容。系统基于时间进行衰减处理,小众兴趣就会慢慢地被淡化和丢失。
应对小众兴趣,一方面需要扩充系统的资源池,让小众兴趣也有足够的内容覆盖,另一方面也需要通过产品设计鼓励用户更主动地进行强表达行为(如收藏、关注),一次关注行为显然比一次点击行为更经得起长时间的衰减。
好的推荐系统,是不会止步于已知边界的,而是会用一次次的探索去触达未知,给用户带来惊喜。
(整理自《内容算法》)
网友评论