美文网首页
数据采集09

数据采集09

作者: Nefelibatas | 来源:发表于2022-04-22 14:24 被阅读0次

体系评估

在使用用户画像和物品画像时,首先需要对画像体系进行有效性判断,即体系评估,以期达成使用目标。

在对用户画像和物品画像评估时,我们可以基于画像标签的指标分别从准确率、覆盖率、平均标签数、时效性、其他指标等维度进行评定。在这里,我们把用户和物品统称为项目,以下举例皆是以用户画像为主,物品画像为辅。

准确率

准确率是画像标签中最核心的指标,对于体系匹配效果具有决定性意义,比如说我们想找到 58 同城到家精选偏好是 100-200 元的保洁服务的用户,如果标记为 100-200 元的这个用户的标签是错的,那我们找到的用户也肯定是错的。

标签的准确率为被打对标签的项目数除以打上这个标签的项目数,关于准确率的计算方法如下所示:
p = \frac{|U_{tag-true}|}{|U_{tag}|}

覆盖率

覆盖率是画像标签的重要指标之一,是体系匹配效能达成的保证,比如我们还是想找 58 同城到家精选偏好是 100-200元 的保洁服务的用户,如果“100-200 元”这个标签标记的用户只有 3 人,那么这个标签也没有意义,因此标签需要覆盖总体项目的一定比例

关于覆盖率的计算方法是打上该标签的项目数与总项目数之比,其具体计算公式如下所示:

cover = \frac{|U_{tag}|}{|U|}

平均标签数

标签是项目单个维度的反映,因此我们需要给每个项目打上多种标签,只有这样我们才能更全面地理解这个项目,那项目的平均标签数如何定义呢?

关于平均标签数的计算方法是项目的标签总数与被打上标签的项目数之比。
aver = \frac{\sum^n_{i=1}tag_i}{|U|}

其他指标

标签具有唯一性、可读性等其他指标,因这些指标无法给出量化标准,所以在评估时只是用来作为辅助参考,如在 58 同城本地服务中,“货车搬家”“厢货搬家”属于同义标签,因此需要进行统一归一化处理。

特别声明一下:在对画像体系进行评估时,我们需要优先保证画像标签的准确率和覆盖率。

相关文章

  • 数据采集09

    体系评估 在使用用户画像和物品画像时,首先需要对画像体系进行有效性判断,即体系评估,以期达成使用目标。 在对用户画...

  • 数据仓库搭建

    全流程:数据采集->数据存储->数据分析->数据呈现 数据采集 首先我们从数据采集来说,数据采集的数据主要来自于日...

  • 产品要懂点数据分析(三)- 分析过程

    数据采集 数据分析的对象就是数据,通过数据采集来获得数据。数据采集在《产品要懂点数据分析(一)-数据采集和数据指标...

  • Python网络数据采集之图像识别与文字处理

    网络采集系列文章 Python网络数据采集之创建爬虫Python网络数据采集之HTML解析Python网络数据采集...

  • 用数据驱动产品和运营 之 数据处理流程

    数据处理流程: 数据金字塔:数据采集——数据建模——数据分析 (一)数据采集 数据采集问题:不准确、不完备、不细致...

  • 第一章 总述

    大数据系统体系:数据采集、数据计算、数据服务、数据应用 一. 数据采集层: 1)web端日志采集技术方案:Aplu...

  • 大数据之数据采集

    大数据体系一般分为:数据采集、数据计算、数据服务、以及数据应用 几大层次。 在数据采集层,主要分为 日志采集 和 ...

  • 扩展json

    json 计划 0:一次性数据 计划 1:采集数据 计划 2:计数 采集数据字典 0:方法内部采集 采集数据字典 ...

  • 高屋建瓴 | 阿里巴巴大数据之路

    阿里巴巴数据平台总共分为四个基本层级: 数据采集层:数据采集包括日志采集和数据库数据同步两部分,其中日志采集包括:...

  • redis监控指标

    服务器系统数据采集 Redis Server数据采集 Redis响应时间数据采集 Redis监控Screen 一、...

网友评论

      本文标题:数据采集09

      本文链接:https://www.haomeiwen.com/subject/skknertx.html