数据集分析
用户user-id
20万条
文章click_article
36万条
测试集testA_click_log.csv
51万条点击数据,训练集train_click_log.csv
104万条点击数据
格式
通过这9维的数据对下一篇文章的点击概率预测,可以用LR解决,与此同时,分类问题也可以由Xgboost, GBDT解决。
Task 01—Baseline-协同过滤
主要分为两步:
使用Item-CF计算物品相似度
根据用户的协同过滤值进行文章推荐
表示喜欢物品的用户数
Task 02—数据分析
文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。
尤其需要用直方图观察数据分布,同时可以利用PCA等主成分分析法做一些重要特征的选取(另,sklearn中对于xgboost和gbdt方法有可直接调用的重要特征分析包)。
网友评论