是新朋友吗?记得先点蓝字关注我哦~
关注V-X公众号:一个数据人的自留地
1、回复“数据中台”,获取<大厂数据中台资料>
2、回复“数据产品”,获取<大厂数据产品面试题>
3、回复“商业分析”,获取<大厂商业分析面试题>
4、回复“交个朋友”,进入<交流群>
一、留存与探索
在用户冷启动的场景中,推荐服务的一大目标是:用户的留存率。只有在保证用户留存的前提下,才会考量推荐的兴趣探索效果如何,是否在有限的展示里全面探索出了用户的偏好。对于慢热型的用户,我们并不急于获悉他的方方面面,而是以留住用户为第一目的。
以知乎为例,以问答为主场景的知乎最新上线了“想法”频道,主要展示关注对象的短内容,并会穿插一些推荐性质的短内容。尽管问答主场景和“想法”频道都融合了推荐算法,但是两个场景下的冷启动目标是不一样的。
用户使用知乎是为了看答案,提问题,答问题。“想法”频道对用户而言是一个增值体验而非基础体验,做得不好,用户大不了不用这个子频道,但不至于从应用流失。所以,它可以更单纯地追求用户兴趣探索的效果。但对问答主场景而言,就需要平衡用户兴趣探索的效果(尽可能地探索出用户的兴趣点)和用户留存的情况(以高热内容留住用户)。
对产品主场景而言,用户留存一定是第一目标,只有把用户留下来才有持续探索的可能性。所以,系统在新用户的冷启动推荐上也会更偏向于重大兴趣的收敛而非发散,尽可能地追求留存率的提升。
二、移动端产品获取信息的途径
对于冷启动的内容,我们可以基于文本分析抽离出内容的关键字、话题来建立内容画像;对于冷启动的用户,我们同样需要尽快完善信息的搜集和预处理工作,建立对用户的初步认知。
对移动端产品来说,可以获取信息的途径有多种:
在设备层上,如厂商、型号都是必备信息。对安卓设备来说,某些品牌的用户在统计学上具有一定的可区分度,如锤子手机、一加手机的用户同VIVO、OPPO手机的用户就存在一定差异。
在权限层上,移动设备可补充信息的丰富程度远高于PC(个人电脑)端:设备标志信息可以帮助判断用户是否是卸载重装的老用户;地理位置权限能够帮助确定用户的当前位置、常住位置、行为轨迹。
Wi–Fi信息可以同时用于确定位置信息,并进一步将处于同一Wi–Fi环境下的用户圈定出来(通常是家庭、工作关系,如果同一Wi–Fi下的用户数量不多,那么这些用户彼此间可能有更亲密的关系)。
基于社交关系的应用还会申请读取用户的通信录信息,以此补全用户的社交关系网络,并通过用户A的手机通信录信息,反推其余手机用户的真实姓名。比如,系统已经知道了我的手机号,那么在我的朋友也上传了他们的通信录的情况下,多个朋友对我的备注信息是B,就可以大概率确认我的真实姓名是B。
由于部分安卓手机用户的权限意识较弱,很多应用还会申请如读取目录或已经安装的软件等权限,通过文件目录反推用户已经安装的应用情况,以此来确定用户的偏好信息。比如:如果用户安装了大姨妈、蘑菇街之类的应用,则该用户极有可能是女性用户;如果用户安装了宝宝树、亲宝宝之类的应用,则有可能是有孩子的用户。
在应用层上,结合产品设计和分发渠道特点,可以获得更丰富的信息。
装机渠道:在安卓设备上,通过不同的市场渠道、不同的广告素材转化而来的用户具有不同的特点。比如,通过金融相关素材转化的用户,显然会对金融类内容更感兴趣。在iOS(苹果公司的移动操作系统)设备上,也能通过一些类“邀请码”的设计方式来回溯用户是通过什么渠道安装的。
登录方式:通过第三方登录能够更快速地获取用户的基本信息。国内有微博、微信的联合登录,国外有脸谱网的联合登录。其中,脸谱网支持获取的权限信息如图1所示,有助于分析用户的好友信息、工作信息、教育背景等。
业务设计:偏社交性的应用则会引导用户上传真实头像、补充身份信息等,并结合用户提交的性别、年龄等信息,基于人群上的统计意义来推荐。偏阅读性的应用会让用户手动选择自己感兴趣的领域,或通过让用户对一些有区别的内容进行打分的方式来判断用户的喜好。
最典型的应用就是主打用户主动订阅、新内容及时推送模式的“即刻”了。在启动之后,该应用会展示主题订阅页,引导用户订阅自己感兴趣的主题。但这样的方式也存在一些问题:用户真的能够准确表达出自己的喜好吗?还是往往过高地估计和描述了自己的喜好情况(比如,我个人觉得自己是喜欢专业分析内容的,但显然高估了自己)?此外,这种在主消费场景之前增加一道门槛的方式,本身也会对小白用户造成一定的影响。
应用家族:对BAT(百度、阿里巴巴、腾讯三大互联网公司首字母的缩写)这种有多款热门应用的公司而言,应用与应用之间的交叉验证,就已经能将未登录的设备对应上已注册的用户,从而复用已有的用户信息了。
从某种角度说,腾讯可能比你自己更了解你。腾讯的产品从最基础的社交工具QQ、微信,到新闻阅读“腾讯新闻”,再到娱乐化消费的“腾讯视频”“QQ音乐”“QQ阅读”“王者荣耀”等,不胜枚举。对腾讯系的产品而言,如果善用用户画像,怕是没什么用户算得上是“新”用户了。
三、用户冷启动的推荐策略
面向冷启动用户的推荐,最典型的方式就是使用非个性化的热门榜单。这种方式主要满足了“新”和“热”两个特点,即使用户对推荐内容不感兴趣也不至于太过反感,待收集到一定的数据后再转换为个性化推荐。Netflix的研究也表明:在冷启动阶段新用户更倾向于热门内容,而老用户则更需要长尾内容的推荐。
进一步地,我们需要在有限的展示次数中,尽快确定用户的主要偏好。对于兴趣探测内容的选取就存在基本策略:按照覆盖面由大到小的次序,选择有区分度的内容进行用户偏好的探测,基于已有用户群体的偏好统计数据,动态调整后续用于兴趣探测的类目和内容。
以图2为例,娱乐、军事、体育是内容消费大类,可以优先展示这些类目的内容给用户。如果用户表现出了对娱乐类目的偏好,系统一方面可以纵向深挖用户对娱乐类目下各个子类的兴趣分布,另一方面也可以通过已有的“喜欢娱乐的用户是更喜欢军事,还是更喜欢体育”的统计数据,选择下一步应该优先探测军事类目还是体育类目,并沿着树状结构优先探寻用户更可能感兴趣的类目内容。
(整理自《内容算法》)
一个数据人的自留地是一个助力数据人成长的大家庭,帮助对数据感兴趣的伙伴们明确学习方向、精准提升技能。
扫码关注我,带你探索数据的神奇奥秘
网友评论