美文网首页
数据采集04

数据采集04

作者: Nefelibatas | 来源:发表于2022-04-12 08:32 被阅读0次

    数据加工层:如何搭建用户与内容的标准规范体系?

    在个性化流量分发体系中,数据加工阶段主要包含用户标签体系和物品标签体系建设工作,即结构化标准体系建设。

    在这个过程中,需要将用户基础数据、物品基础数据、采集的行为数据等进行清洗、抽取、关联等,最终形成用户标签和物品标签。

    其中,用户标签是用户的结构化基础,物品标签是物品的结构化基础,为后续用户画像和物品画像的产出提供必要的材料和关联基础。

    推荐算法依据结构化数据对用户和物品进行理解,从而提高流量分发的精度。

    用户结构化基础:用户标签

    因为用户标签面向各个业务,所以用户标签被应用到实际业务之前,需要先深刻理解各个业务,再通过标签加工的方式找到该业务体系下有区分度的标签,这里所说的有区分度的标签指的就是用户标签。

    一般来说,用户标签分为基本信息、统计标签、偏好标签、分类标签这四类。

    基本信息

    比如用户 ID、注册时间、设备类型等标签,这些标签都是通过线上系统或其他方式直接获取的,不需要任何加工

    统计标签:

    指的是基于事实数据的直接统计结果,比如超市最近三个月日均支付金额、最近三个月登录次数、历史累计好评数等标签通过汇总历史数据即可生成

    偏好标签

    指通过汇总用户一段时间内的相关行为,并按行为加权生成的标签。这类标签主要根据用户行为计算而得,反应了用户一段时间内的兴趣点,比如用户的品牌偏好、各级类目偏好等。这些标签并不涉及复杂的机器学习算法,但是不同标签的加工过程存在差异化和个性化。

    分类标签:

    比如预测性别、预测是否有车有房、预测是否已婚已育等标签,它们的每个类别都有明确的定义。因为这类标签的生成一般涉及复杂的算法逻辑,所以常常需要借助机器学习算法。

    偏好标签

    在互联网行业的相关业务场景中,用户对于偏好标签的需求量最大,因为偏好标签通常反映用户在一段时间内的兴趣点,且有可能随着时间的推移发生变化。

    比如用户购买奶粉段位这个偏好标签会随着时间推移,产生一条从 1段 -> 2段 -> 3段 的变化轨迹。

    明白了偏好标签的定义后,看看偏好标签具备哪些特点。

    特点一:无法精确定义偏好度 0 或 1,它仅反映用户在一段时间内的兴趣点,没有绝对意义。比如品牌偏好,我们无法准确定义什么样的用户对肯德基的偏好度是 1,对阿迪达斯的偏好度是 0。

    特点二:这类标签一般与业务强相关,而在加工这类标签时我们通常没有业务感知,不知道哪些行为权重应该大一些,哪些行为权重应该设小一些,也不知道时间窗口设置多长时间更合适。

    特点三:没有复杂的算法逻辑,加工过程都是通过加权汇总一段时间内的几种行为后,归一化到 [0, 1]。

    根据以上特点,偏好标签主要采用按维度加权汇总用户在某种对象(如品牌名)上的相关行为的加工方式,比如将收藏商品数、加购商品数、浏览商品数、交易商品数等维度进行加权汇总,然后归一化到 [0,1] ,最后取 TopN 或全部输出。

    分类标签

    分类标签与偏好标签的区别是偏好标签归一化后的取值范围为 [0,1],而分类标签的取值落到个体上是非 0 即 1,比如性别、是否有房、是否已婚等。

    预测这类标签时,通常需要在一定量的标记样本上,通过机器学习算法训练第一个分类模型(二分类或多分类),再预测无法标记标签的更多数据集。

    对于头部互联网公司而言,因为它们拥有足够丰富的数据和特征,所以在很多分类问题上,即使使用最简单的逻辑回归模型也能达到不错的预测效果。以性别预测为例,我们仅仅使用电商 App 买家在类目上的交易或浏览行为就能达到 75%以上的预测准确率。

    物品结构化基础:物品标签

    在浏览信息时,用户往往希望看到自己钟爱的标签,然后挑选钟爱标签对应的商品,再进入烙印了自己钟爱标签的店铺。在这个过程中,用户不断沉淀了个人的行为标签。

    而物品标签就是通过标签这个维度将商品清单等泛内容、 C 端/B 端等泛用户及前台导购投放等运营手段串联起来,再利用标签能力实现对不同商品圈集、不同 B 端圈集、不同 C 端圈集。
    物品标签的标签结构按照标签的组合粒度可以分成基础标签、合成标签、概念标签

    • 基础标签

      基础标签分成内容标签、用户标签、卖家标签、商品标签、业务标签等。

    以商品标签为例,商品标签的基础标签指的是文本类标签,主要取自商品的标题、属性等各种用于描述商品的文本信息,类似于属性-属性值。为了方便管理和应用,我们需要对属性进行优化,最终沉淀出一套在整个标签体系中不可再分、最基础的标签。

    因此,基础标签是平台最重要、最核心的资产,我们通过基础标签实现了商品——>B 端——>C 端——>内容的串联

    • 合成标签

      合成标签是对基础标签进一步加工的产物。以商品为例,合成标签定义为相似商品的集合,比如欧美高领毛衣、高腰碎花连衣裙等,它们各自由三个基础标签构成(注意:它们是相似商品集,并不仅仅是一条短文本)。

    对于商品而言,使用多个标签描述这批商品时,其优点在于可理解、可编辑,因为它是一个中间产物。

    虽然合成标签是相似商品的集合,不过也同样适用于用户身上,因此我们也可以使用合成标签对用户进行更细粒度的切分。

    • 概念标签

    概念标签的定义范围比较宽,指的是跨品类、跨类目商品的合理组合。

    目前,概念标签主要应用在商品上,用来强调商品的合理性。概念标签可以通过基础标签的交并集关系聚合而成,也可以由多个合成标签聚合而成。比如“青春学院风”这个概念标签包含了破洞牛仔裤、韩版T恤、帆布鞋以及斜挎帆布包等商品。

    在实际业务中,概念标签的最大价值在于将行业的经验、用户群体的购物偏好等统统沉淀下来,从而为更多用户服务,真正做到了知识的沉淀和复用。

    相关文章

      网友评论

          本文标题:数据采集04

          本文链接:https://www.haomeiwen.com/subject/hysisrtx.html