美文网首页
天池新闻推荐入门赛

天池新闻推荐入门赛

作者: 戈季 | 来源:发表于2020-11-25 22:14 被阅读0次

    数据集分析

    用户user-id 20万条
    文章click_article 36万条
    测试集testA_click_log.csv51万条点击数据,训练集train_click_log.csv104万条点击数据
    格式

    image.png

    通过这9维的数据对下一篇文章的点击概率预测,可以用LR解决,与此同时,分类问题也可以由Xgboost, GBDT解决。

    Task 01—Baseline-协同过滤

    主要分为两步:
    使用Item-CF计算物品相似度
    根据用户的协同过滤值w_(i,j)进行文章推荐
    N_(i)表示喜欢物品i的用户数

    image.png

    Task 02—数据分析

    文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。
    尤其需要用直方图观察数据分布,同时可以利用PCA等主成分分析法做一些重要特征的选取(另,sklearn中对于xgboost和gbdt方法有可直接调用的重要特征分析包)。

    相关文章

      网友评论

          本文标题:天池新闻推荐入门赛

          本文链接:https://www.haomeiwen.com/subject/tedoiktx.html