Kaggle winner 方案 | Instacart Mar

作者: 不会停的蜗牛 | 来源:发表于2018-01-05 12:30 被阅读413次

Kaggle winner 方案 | Instacart Mar
Kaggle winner 方案简介 | Understandi
Kaggle---Instacart Market Basket
Kaggle 神器 xgboost
12月第二周电商融资整理
kaggle.回归问题.2018-04-16
大吉大利，今晚吃鸡
目录
Eclipse中加入SVN插件
用户从 4 亿到 10 亿：Instagram 的「相邻用户」增

今天来看看 Instacart Market Basket Analysis competition 的第二名方案，作者是 Yahoo! JAPAN 的一个数据科学家 Kazuki Onodera (aka ONODERA on Kaggle)

这个比赛是要根据顾客的历史购买记录，预测 Instacart 的消费者将再次购买哪种商品，这样可以在顾客需要这个商品的时候，货源是充足的。

模型：

用 XGBoost 建立两个模型，分别预测

之前购买的哪种商品会出现在下次购物篮里，
（用 6个GBDT 结果的平均值作为商品出现在用户下次购物中的预测概率）
顾客的下一次购物是否包含任何一种之前购买过的商品。
（用 17 个 GBDT 的结果的加权平均作为用户下次购物中完全没有之前商品的概率）

特征：

分别从顾客，商品，用户＊商品，时间的角度建立，下面列其中一些特征

顾客：

How often the user reordered items
Time between orders
Time of day the user visits
Features based on order sizes
How many of the user’s orders contained no previously purchased items

商品：

How often the item is purchased
How many users buy it as "one shot" item
Distribution of the day of week it is ordered
Statistics around the time between orders
Probability of being reordered within N orders
Probability it is reordered after the first order

用户＊商品：

Number of orders in which the user purchases the item
Days since the user last purchased the item
Replacement items
Whether the user already ordered the item today

时间：

Counts by day of week
Counts by hour

评估指标：

用 F1 得到概率

然后挑选阈值将概率转化为二进制 1/0 (Yes/No)
不同的购物记录它们的阈值也是不同的

学习资料：
http://blog.kaggle.com/2017/09/21/instacart-market-basket-analysis-winners-interview-2nd-place-kazuki-onodera/

推荐阅读历史技术博文链接汇总
 http://www.jianshu.com/p/28f02bb59fe5
也许可以找到你想要的：
[入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]

网友评论

维真_dfb9:姐姐好像现在大家都用c++写数据挖掘来着

本文标题：Kaggle winner 方案 | Instacart Mar

本文链接：https://www.haomeiwen.com/subject/wcujnxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Kaggle winner 方案 | Instacart Mar

模型：

特征：

评估指标：

相关文章

Kaggle winner 方案 | Instacart Mar

Kaggle winner 方案简介 | Understandi

Kaggle---Instacart Market Basket

Kaggle 神器 xgboost

12月第二周电商融资整理

kaggle.回归问题.2018-04-16

大吉大利，今晚吃鸡

目录

Eclipse中加入SVN插件

用户从 4 亿到 10 亿：Instagram 的「相邻用户」增

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

数据科学家

Chaos 42

机器学习之旅