数据采集04

作者: Nefelibatas | 来源:发表于2022-04-12 08:32 被阅读0次

数据加工层:如何搭建用户与内容的标准规范体系？

在个性化流量分发体系中，数据加工阶段主要包含用户标签体系和物品标签体系建设工作，即结构化标准体系建设。

在这个过程中，需要将用户基础数据、物品基础数据、采集的行为数据等进行清洗、抽取、关联等，最终形成用户标签和物品标签。

其中，用户标签是用户的结构化基础，物品标签是物品的结构化基础，为后续用户画像和物品画像的产出提供必要的材料和关联基础。

推荐算法依据结构化数据对用户和物品进行理解，从而提高流量分发的精度。

用户结构化基础：用户标签

因为用户标签面向各个业务，所以用户标签被应用到实际业务之前，需要先深刻理解各个业务，再通过标签加工的方式找到该业务体系下有区分度的标签，这里所说的有区分度的标签指的就是用户标签。

一般来说，用户标签分为基本信息、统计标签、偏好标签、分类标签这四类。

基本信息

比如用户 ID、注册时间、设备类型等标签，这些标签都是通过线上系统或其他方式直接获取的，不需要任何加工。

统计标签：

指的是基于事实数据的直接统计结果，比如超市最近三个月日均支付金额、最近三个月登录次数、历史累计好评数等标签通过汇总历史数据即可生成。

偏好标签

指通过汇总用户一段时间内的相关行为，并按行为加权生成的标签。这类标签主要根据用户行为计算而得，反应了用户一段时间内的兴趣点，比如用户的品牌偏好、各级类目偏好等。这些标签并不涉及复杂的机器学习算法，但是不同标签的加工过程存在差异化和个性化。

分类标签：

比如预测性别、预测是否有车有房、预测是否已婚已育等标签，它们的每个类别都有明确的定义。因为这类标签的生成一般涉及复杂的算法逻辑，所以常常需要借助机器学习算法。

偏好标签

在互联网行业的相关业务场景中，用户对于偏好标签的需求量最大，因为偏好标签通常反映用户在一段时间内的兴趣点，且有可能随着时间的推移发生变化。

比如用户购买奶粉段位这个偏好标签会随着时间推移，产生一条从 1段 -> 2段 -> 3段的变化轨迹。

明白了偏好标签的定义后，看看偏好标签具备哪些特点。

特点一：无法精确定义偏好度 0 或 1，它仅反映用户在一段时间内的兴趣点，没有绝对意义。比如品牌偏好，我们无法准确定义什么样的用户对肯德基的偏好度是 1，对阿迪达斯的偏好度是 0。

特点二：这类标签一般与业务强相关，而在加工这类标签时我们通常没有业务感知，不知道哪些行为权重应该大一些，哪些行为权重应该设小一些，也不知道时间窗口设置多长时间更合适。

特点三：没有复杂的算法逻辑，加工过程都是通过加权汇总一段时间内的几种行为后，归一化到 [0, 1]。

根据以上特点，偏好标签主要采用按维度加权汇总用户在某种对象（如品牌名）上的相关行为的加工方式，比如将收藏商品数、加购商品数、浏览商品数、交易商品数等维度进行加权汇总，然后归一化到 [0,1] ，最后取 TopN 或全部输出。

分类标签

分类标签与偏好标签的区别是偏好标签归一化后的取值范围为 [0,1]，而分类标签的取值落到个体上是非 0 即 1，比如性别、是否有房、是否已婚等。

预测这类标签时，通常需要在一定量的标记样本上，通过机器学习算法训练第一个分类模型（二分类或多分类），再预测无法标记标签的更多数据集。

对于头部互联网公司而言，因为它们拥有足够丰富的数据和特征，所以在很多分类问题上，即使使用最简单的逻辑回归模型也能达到不错的预测效果。以性别预测为例，我们仅仅使用电商 App 买家在类目上的交易或浏览行为就能达到 75%以上的预测准确率。

物品结构化基础：物品标签

在浏览信息时，用户往往希望看到自己钟爱的标签，然后挑选钟爱标签对应的商品，再进入烙印了自己钟爱标签的店铺。在这个过程中，用户不断沉淀了个人的行为标签。

而物品标签就是通过标签这个维度将商品清单等泛内容、 C 端/B 端等泛用户及前台导购投放等运营手段串联起来，再利用标签能力实现对不同商品圈集、不同 B 端圈集、不同 C 端圈集。
物品标签的标签结构按照标签的组合粒度可以分成基础标签、合成标签、概念标签。

基础标签

基础标签分成内容标签、用户标签、卖家标签、商品标签、业务标签等。

以商品标签为例，商品标签的基础标签指的是文本类标签，主要取自商品的标题、属性等各种用于描述商品的文本信息，类似于属性-属性值。为了方便管理和应用，我们需要对属性进行优化，最终沉淀出一套在整个标签体系中不可再分、最基础的标签。

因此，基础标签是平台最重要、最核心的资产，我们通过基础标签实现了商品——>B 端——>C 端——>内容的串联。

合成标签

合成标签是对基础标签进一步加工的产物。以商品为例，合成标签定义为相似商品的集合，比如欧美高领毛衣、高腰碎花连衣裙等，它们各自由三个基础标签构成（注意：它们是相似商品集，并不仅仅是一条短文本）。

对于商品而言，使用多个标签描述这批商品时，其优点在于可理解、可编辑，因为它是一个中间产物。

虽然合成标签是相似商品的集合，不过也同样适用于用户身上，因此我们也可以使用合成标签对用户进行更细粒度的切分。

概念标签

概念标签的定义范围比较宽，指的是跨品类、跨类目商品的合理组合。

目前，概念标签主要应用在商品上，用来强调商品的合理性。概念标签可以通过基础标签的交并集关系聚合而成，也可以由多个合成标签聚合而成。比如“青春学院风”这个概念标签包含了破洞牛仔裤、韩版T恤、帆布鞋以及斜挎帆布包等商品。

在实际业务中，概念标签的最大价值在于将行业的经验、用户群体的购物偏好等统统沉淀下来，从而为更多用户服务，真正做到了知识的沉淀和复用。

网友评论

本文标题：数据采集04

本文链接：https://www.haomeiwen.com/subject/hysisrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据采集04

数据加工层:如何搭建用户与内容的标准规范体系？

用户结构化基础：用户标签

基本信息

偏好标签

偏好标签

分类标签

物品结构化基础：物品标签

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读