美文网首页
推荐系统24:数据采集

推荐系统24:数据采集

作者: 勇于自信 | 来源:发表于2021-06-14 22:19 被阅读0次

推荐系统离不开数据,数据就是推荐系统的粮食,要有数据就得收集数据。在自己产品中收集数据,主要还是来自日志。

日志和数据

数据驱动这个概念也是最近几年才开始流行起来的,在古典互联网时代,设计和开发产品完全侧重于功能易用和设计精巧上,并且整体驱动力受限于产品负责人的个人眼光,这属于是一种感性的把握,也因此对积累数据这件事就不是很重视。

在我经手的产品中,就有产品上线很久,需要搭建推荐系统时,却发现并没有收集相应的数据,或者收集得非常杂乱无章。

关于数据采集,按照用途分类又有三种:

  1. 报表统计;
  2. 数据分析;
  3. 机器学习。

当然,这三种的用途并不冲突,而且反而有层层递进的关系。最基本的数据收集,是为了统计一些核心的产品指标,例如次日留存,七日留存等,一方面是为了监控产品的健康状况,另一方面是为了对外秀肌肉,这一类数据使用非常浅层,对数据的采集要求也不高。

第二种就是比较常见的数据采集需求所在了。在前面第一种用途基础上,不但需要知道产品是否健康,还需要知道为什么健康、为什么不健康,做对了什么事、做错了什么事,要从数据中去找到根本的原因。

这种数据采集的用途,驱动了很多多维分析软件应运而生,也驱动了多家大数据创业公司应运而生。

数据分析工作,最后要产出的是比较简明清晰直观的结论,这是数据分析师综合自己的智慧加工出来的,是有人产出的。

它主要用于指导产品设计、指导商业推广、指导开发方式。走到这一步的数据采集,已经是实打实的数据驱动产品了。

第三种,就是收集数据为了机器学习应用,或者更广泛地说人工智能应用。那么机器学习应用,主要在消化数据的角色是算法、是计算机,而不是人。

这个观点是我在专栏写作之初,讲解用户画像相关内容时就提到的,再强调一遍就是,所有的数据,不论原始数据还是加工后的数据都是给机器“看”的,而不是给人“看”的。

所以在数据采集上,可以说多多益善,样本是多多益善,数据采集的维度,也就是字段数多多益善,但另一方面,数据是否适合分析,数据是否易于可视化地操作并不是核心的内容。

当然,实际上在任何一款需要有推荐系统的产品中,数据采集的需求很可能要同时满足上述三种要求。

相关文章

  • 推荐系统24:数据采集

    推荐系统离不开数据,数据就是推荐系统的粮食,要有数据就得收集数据。在自己产品中收集数据,主要还是来自日志。 日志和...

  • 携程的数据采集系统架构

    实时数据采集系统 原文链接 1. 典型的数据采集分析系统 数据采集数据传输数据清洗/建模/存储数据统计/分析/挖掘...

  • 新能源汽车空调数据采集系统

    空调数据采集系统用于整车空调试验过程中对各采集点的数据记录。空调数据采集系统能有效完成对车辆空调系统有关的温度、风...

  • redis监控指标

    服务器系统数据采集 Redis Server数据采集 Redis响应时间数据采集 Redis监控Screen 一、...

  • 第一章 总述

    大数据系统体系:数据采集、数据计算、数据服务、数据应用 一. 数据采集层: 1)web端日志采集技术方案:Aplu...

  • 神策杯 2018高校算法大师赛(个人、top2、top6)方案总

    1 竞赛背景 神策数据推荐系统是基于神策分析平台的智能推荐系统。它针对客户需求和业务特点,并基于神策分析采集的用户...

  • 使用数据采集模块必须知道哪些

    数据采集又称数据获取是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口,数据采集技术广泛应用在各个领域。...

  • 租房系统进度记录

    租房系统进度记录 记录租房系统项目的主要进度 2017/02/18 开始采集自如的房源数据,当日采集数据1060 ...

  • 大数据学习之:Flume

    flume作用 从磁盘采集文件发送到HDFS 数据采集来源:系统日志文件、Python爬虫数据、端口数据 数据发送...

  • 工业数据采集的几种方式和工具

    工业数据采集系统MES(Manufacturing Execution System,制造执行系统),MES 系统...

网友评论

      本文标题:推荐系统24:数据采集

      本文链接:https://www.haomeiwen.com/subject/arjbeltx.html