数据加工层:如何搭建用户与内容的标准规范体系?
在个性化流量分发体系中,数据加工阶段主要包含用户标签体系和物品标签体系建设工作,即结构化标准体系建设。
在这个过程中,需要将用户基础数据、物品基础数据、采集的行为数据等进行清洗、抽取、关联等,最终形成用户标签和物品标签。
其中,用户标签是用户的结构化基础,物品标签是物品的结构化基础,为后续用户画像和物品画像的产出提供必要的材料和关联基础。
推荐算法依据结构化数据对用户和物品进行理解,从而提高流量分发的精度。
用户结构化基础:用户标签
因为用户标签面向各个业务,所以用户标签被应用到实际业务之前,需要先深刻理解各个业务,再通过标签加工的方式找到该业务体系下有区分度的标签,这里所说的有区分度的标签指的就是用户标签。
一般来说,用户标签分为基本信息、统计标签、偏好标签、分类标签这四类。
基本信息
比如用户 ID、注册时间、设备类型等标签,这些标签都是通过线上系统或其他方式直接获取的,不需要任何加工。
统计标签:
指的是基于事实数据的直接统计结果,比如超市最近三个月日均支付金额、最近三个月登录次数、历史累计好评数等标签通过汇总历史数据即可生成。
偏好标签
指通过汇总用户一段时间内的相关行为,并按行为加权生成的标签。这类标签主要根据用户行为计算而得,反应了用户一段时间内的兴趣点,比如用户的品牌偏好、各级类目偏好等。这些标签并不涉及复杂的机器学习算法,但是不同标签的加工过程存在差异化和个性化。
分类标签:
比如预测性别、预测是否有车有房、预测是否已婚已育等标签,它们的每个类别都有明确的定义。因为这类标签的生成一般涉及复杂的算法逻辑,所以常常需要借助机器学习算法。
偏好标签
在互联网行业的相关业务场景中,用户对于偏好标签的需求量最大,因为偏好标签通常反映用户在一段时间内的兴趣点,且有可能随着时间的推移发生变化。
比如用户购买奶粉段位这个偏好标签会随着时间推移,产生一条从 1段 -> 2段 -> 3段 的变化轨迹。
明白了偏好标签的定义后,看看偏好标签具备哪些特点。
特点一:无法精确定义偏好度 0 或 1,它仅反映用户在一段时间内的兴趣点,没有绝对意义。比如品牌偏好,我们无法准确定义什么样的用户对肯德基的偏好度是 1,对阿迪达斯的偏好度是 0。
特点二:这类标签一般与业务强相关,而在加工这类标签时我们通常没有业务感知,不知道哪些行为权重应该大一些,哪些行为权重应该设小一些,也不知道时间窗口设置多长时间更合适。
特点三:没有复杂的算法逻辑,加工过程都是通过加权汇总一段时间内的几种行为后,归一化到 [0, 1]。
根据以上特点,偏好标签主要采用按维度加权汇总用户在某种对象(如品牌名)上的相关行为的加工方式,比如将收藏商品数、加购商品数、浏览商品数、交易商品数等维度进行加权汇总,然后归一化到 [0,1] ,最后取 TopN 或全部输出。
分类标签
分类标签与偏好标签的区别是偏好标签归一化后的取值范围为 [0,1],而分类标签的取值落到个体上是非 0 即 1,比如性别、是否有房、是否已婚等。
预测这类标签时,通常需要在一定量的标记样本上,通过机器学习算法训练第一个分类模型(二分类或多分类),再预测无法标记标签的更多数据集。
对于头部互联网公司而言,因为它们拥有足够丰富的数据和特征,所以在很多分类问题上,即使使用最简单的逻辑回归模型也能达到不错的预测效果。以性别预测为例,我们仅仅使用电商 App 买家在类目上的交易或浏览行为就能达到 75%以上的预测准确率。
物品结构化基础:物品标签
在浏览信息时,用户往往希望看到自己钟爱的标签,然后挑选钟爱标签对应的商品,再进入烙印了自己钟爱标签的店铺。在这个过程中,用户不断沉淀了个人的行为标签。
而物品标签就是通过标签这个维度将商品清单等泛内容、 C 端/B 端等泛用户及前台导购投放等运营手段串联起来,再利用标签能力实现对不同商品圈集、不同 B 端圈集、不同 C 端圈集。
物品标签的标签结构按照标签的组合粒度可以分成基础标签、合成标签、概念标签。
-
基础标签
基础标签分成内容标签、用户标签、卖家标签、商品标签、业务标签等。
以商品标签为例,商品标签的基础标签指的是文本类标签,主要取自商品的标题、属性等各种用于描述商品的文本信息,类似于属性-属性值。为了方便管理和应用,我们需要对属性进行优化,最终沉淀出一套在整个标签体系中不可再分、最基础的标签。
因此,基础标签是平台最重要、最核心的资产,我们通过基础标签实现了商品——>B 端——>C 端——>内容的串联。
-
合成标签
合成标签是对基础标签进一步加工的产物。以商品为例,合成标签定义为相似商品的集合,比如欧美高领毛衣、高腰碎花连衣裙等,它们各自由三个基础标签构成(注意:它们是相似商品集,并不仅仅是一条短文本)。
对于商品而言,使用多个标签描述这批商品时,其优点在于可理解、可编辑,因为它是一个中间产物。
虽然合成标签是相似商品的集合,不过也同样适用于用户身上,因此我们也可以使用合成标签对用户进行更细粒度的切分。
- 概念标签
概念标签的定义范围比较宽,指的是跨品类、跨类目商品的合理组合。
目前,概念标签主要应用在商品上,用来强调商品的合理性。概念标签可以通过基础标签的交并集关系聚合而成,也可以由多个合成标签聚合而成。比如“青春学院风”这个概念标签包含了破洞牛仔裤、韩版T恤、帆布鞋以及斜挎帆布包等商品。
在实际业务中,概念标签的最大价值在于将行业的经验、用户群体的购物偏好等统统沉淀下来,从而为更多用户服务,真正做到了知识的沉淀和复用。
网友评论