美文网首页机器学习之旅
YoutubeNet的数据答疑

YoutubeNet的数据答疑

作者: slade_sal | 来源:发表于2018-10-16 21:06 被阅读6次

实在是太忙了,抽空给大家解析一下之前写的YoutubeNet的数据是怎么构造的,协助大家可以自行构造一下。

这边和大家说一下,我没有上传数据的原因有两个:

  • 涉及公司的数据财产,不方便上传
  • 懒得做脱敏处理
  • 数据一共有1300多万条,传输实在不方便

主要数据处理的部分在map_id_idx.py脚本下,其中包含all_item_20180624.txt和click_thirty_day_data_20180609.txt两个数据集合。

其中,all_item_20180624.txt是当日所有的商品集合:包含'Prd_Id', 'ItemId', 'BrandId', 'MsortId'和‘GenderId'五列,分别代表着商品id,skuid,低级品牌id,中级品牌id,产品性别,最后形如:

5675    50000055    175 1500    3
2577    50000056    187 66  3
2002    50000057    63  11  2
2007    50000058    137 58  3
2075    50000060    80  50  3
2348    50000061    138 16  2
423 50000062    162 237 3
469 50000063    10  1500    3
1102    50000064    176 11  1
1896    50000066    37  27  1
2489    50000067    27  44  1
...

click_thirty_day_data_20180609.txt为近三十天的用户点击流,包含'UId', 'ItemId', 'clickTime'三列,分别代表着uid、点击的skuid,点击时间,最后形如:

34  51668064    1528602406
34  51890512    1528788389
34  51884724    1528788393
34  51884720    1528788399
34  51884718    1528788414
34  51580974    1528788442
34  51854970    1528788487
34  51514910    1528788499
34  51855000    1528788535
34  51854990    1528788569
34  51854998    1528788572
...

通过map_id_idx.py对所有的商品进行标序号,然后带入用户的点击流中,方便后期做embedding操作,就酱。

欢迎大家关注我的个人bolg知乎,更多代码内容欢迎follow我的个人Github,如果有任何算法、代码、转行疑问都欢迎通过公众号发消息给我。

相关文章

  • YoutubeNet的数据答疑

    实在是太忙了,抽空给大家解析一下之前写的YoutubeNet的数据是怎么构造的,协助大家可以自行构造一下。 这边和...

  • 伪标签半监督学习

    之前在训练YoutubeNet和DCN的时候,我都发现平台用户中基础用户的信息数据缺失率特别高,比如性别一栏准确填...

  • 2019年三月复盘

    0301复盘 #运营相关# 001 排运营:0301排数据核对+排长答疑+老铁答疑 002 数据组:组织数据组联合...

  • Q&A|表单数据如何导入、导出?

    Hi,大家好,表姐又来给大家答疑解惑啦!这一期的Q&A答疑我们来聊聊表单数据该如何导出、导入。 01. 表单如何导...

  • MySQL相关问题汇总(更新中)

    关于各种 DBMS 的介绍答疑 1文章中有句话不太理解,“列式数据库是将数据按照列存储到数据库中,这样做的好处是可...

  • SAP ABAP OData Gateway 框架里 /IWFN

    本教程前一篇文章 - 25. 答疑 - SAP OData 框架处理 Metadata 元数据请求的实现细节,前后...

  • 数据结构与算法答疑QQ群

    群里面有讲授c,c++,java,数据结构,算法设计与分析的老师提供免费辅导答疑,欢迎大家一起交流。 数据结构与算...

  • 函数答疑:拆分数据函数

    来源:微信公众号表妹的EXCEL 坚持关注表妹图文推送的小伙伴看到今天的主题一定会有疑问,前几天不是刚刚分享完“数...

  • 什么时候需要加权数据?

    大家好!这里是SPSSAU。 最近有看到用户在答疑群里提问到“加权数据”的问题,才发现对于刚刚开始接触数据分析的人...

  • SAP OData 框架里的缓存(Cache)设计专题讲座试读版

    本教程前一篇文章,25. 答疑 - SAP OData 框架处理 Metadata 元数据请求的实现细节,前后端组...

网友评论

    本文标题:YoutubeNet的数据答疑

    本文链接:https://www.haomeiwen.com/subject/rpdkzftx.html