2、标签权重计算
用户在不同标签上的偏好是通过权重来反映的,权重越高,说明用户在该标签上的偏好越强,反之亦然。而且,这个权重会随着时间变化而变化,标签权重的计算主要通过TF-IDF算法。
1)TF-IDF算法思想
用户标签权重,是由该标签对用户本身的重要性(TF-IDF权重)与该标签在业务上对用户的重要性(业务权重)两者共同决定的,
即:用户标签权重 = 业务权重* TF-IDF权重。
TF-IDF权重是通过TF-IDF计算得到的,业务权重是通过用户对标签的行为来决定的,
即:业务权重=行为类型权重 * 行为次数 * 时间衰减
2)简单理解
就是用户对一个标签的重要程度,会用不同行为来表达,不同的行为有不同的难度,比如:对于电商用户的行为难度来说,支付>收藏加购>分享>浏览>点击。不同行为就会有不同的权重,行为越难代表越喜欢,权重越高,同理行为次数越多也代表越喜欢。
标签对这个用户来说越稀有代表越喜欢,喜欢程度会随着时间的增加而逐渐降低,通过这个公式计算标签权重。
3)行为类型权重
用户浏览、点击、搜索、收藏、分享、下单、购买等不同行为对用户而且有不同重要性,一般根据业务经验或者使用层次分析法定义一个基本行为权重。
4)行为次数
这里的行为次数表示每一种行为的次数。
5)时间衰减
时间衰减是指用户的行为会随着时间的流逝,用户偏好会不断减弱。在建立与时间衰减相关的函数时,我们可套用牛顿冷却定律数学模型。
牛顿冷却定律:较热物体的温度F(t)是随着时间t的增长而呈现指数型衰减,其温度衰减公式为:
F(t)=T*exp(-α*t)。
T:初始温度
α:衰减常数即冷却系数,是自己定义的数值,一般通过回归可计算得出
t:时间间隔
在初步形成了用户画像后,并不能直接交给运营、业务人员直接使用,还需要评估用户画像的准确性,以及交付使用后不断迭代用户画像,以获得更加精准的用户画像。
评估方式主要分为3种:逻辑验证、A/B test、用户回访。
逻辑验证:也叫做交叉验证,在完整的用户画像标签体系中,一些标签往往会存在一些相关性;比如用户的累计在线时长越长,订单量通常会越高;比如购买3C产品的用户群中,男性用户数通常大于女性用户数;另外,如果公司购买了第三方机构的数据,也可用于交叉验证。
A/B test:也叫做灰度测试,以上述的忠诚度为例,保证对照组、实验组的流量相同;对实验组的用户,进行提升忠诚度的运营策略(促销活动、积分奖励等);如果实验组的用户,忠诚度相比对照组用户,有一定提升,则可以认为用户画像比较精确。
用户回访:最朴实的评估方法,比如用户画像系统,定义了10万用户为低忠诚度用户;此时从中随机抽取1000人,交给客服,进行回访。根据回访结果,判断用户画像结果是否准确;甚至可以对回访结果进行文本挖掘,形成词云,查看消极词的占比。
层递进地说明了:什么是用户画像?→ 什么场景会用到用户画像?→ 我们是不是真的需要用户画像?→ 用户画像怎么搞才能落地?→ 能落地的用户画像的构建步骤 → 用户画像的效果评估&迭代。
网友评论