Data Science with R in 4 Weeks -

Data Science with R in 4 Weeks -

作者: 慢思考快思考 | 来源:发表于2016-01-27 18:20 被阅读31次

Data Science with R in 4 Weeks -
Data Science with R in 4 Weeks -
Data Science with R in 4 Weeks -
Data Science with R in 4 Weeks -
Data Science with R in 4 Weeks -
Data Science with R in 4 Weeks -
Data Science with R in 4 Weeks -
Data Science with R in 4 Weeks -
Data Science with R in 4 Weeks -
Data Science with R in 4 Weeks -

Predictive Scoring

Predictive scoring 在商业中有广泛的应用。例如，信用卡公司希望知道自己的客户中哪些人可能违约；零售公司(walmart，i.e.) 想知道自己的客户中哪些人未来可能继续购买，可能的花费是多少；B2B公司希望知道自己现有的lead中，哪些更有可能在接下来的12月内购买自己的产品和服务。上面这些问题都涉及到对客户的未来行为进行预测并对预测结果进行量化。这就是predictive scoring。

下面通过一个具体的例子还演示predictive scoring

假设我们有这样的用户消费的数据：第一列是用户id，第二列是消费金额，第三列是消费的日期

我们想知道，2015年在我们这里消费的用户，下一年是否会接着消费，如果会的话，他们消费的金额是多少？为了能够预测下一年度数据，我们首先利用过去的数据作为基准（calibration data），然后建立模型进行预测。

总体思路是：我们掌握的数据是2015年之前的数据，我们利用2014年之前的数据作为基准，也就是学习的模型，然后用这个模型预测2015年的数据，再将预测值和2015年的实际值相比较。如果吻合的好，则说明模型有效，我们进而再用这个模型去预测未来（2016）的情况。

数据预处理：

原始数据变成：

利用2014年和2014年之前的数据作为基准，计算用户的购买频次，花费，最近的一次购买（RFM model），然后，我们计算2015年的用户的总的消费。将这两部分数据合并，我们能得到所有用户的

（1）2014年之前的平均消费，最大消费，购买频次和最近一次购买

（2）该用户在2015年是否进行了消费，如果消费了，他的消费金额是多少

（3）标识出2014年之前消费但在2015年没有消费的用户

结果如下图：

接下来，我们就可以建立模型了。我们采用 multinomial logistic regression, 关于这个模型，可以看这里和这里。

为了简单起见，我们只预测用户是否消费，即0，1，而不预测用户消费的可能性。

消费数据。这部分数据只能选用在2015年消费的用户。采用线性回归。

z= which(in_sample$active_2015==1)

amount.model= lm(formula=revenue_2015~avg_amount+max_amount,data=in_sample[z, ])

R square 有60%左右，说明模型和数据fit的还可以。

因为消费数据中的大部分是较小的消费额，所以属于看上去有些skew，可以采用log的方式

amount.model= lm(formula= log(revenue_2015) ~ log(avg_amount) + log(max_amount),data=in_sample[z, ])

然后，我们把模型应用到2015年的数据上。例如，我们可以看到，2015年的用户中，有18417个用户他们2016年的消费可能超过$50.

相关文章

Data Science with R in 4 Weeks -
Week 1 -Day 2 前面我们做了简单的数据分析，接下来我们看一下，怎么把这些数据转换成更直观的的图标的形式...
Data Science with R in 4 Weeks -
Day 3: summaries of data - two dimension summary 例子1： mul...
Data Science with R in 4 Weeks -
Reshaping Data Reshape & reshape 2 经常用到的一中分析是reshape - ca...
Data Science with R in 4 Weeks -
ggplot2 重点介绍一下ggplot2，作图中非常常用的一个命令。ggplot2提供非常强大的图形功能。注意...
Data Science with R in 4 Weeks -
Hierarchical clustering 业务分析中经常遇到的一个挑战是如何对不同的数据进行分组。这些数据可...
Data Science with R in 4 Weeks -
Dimension Reduction - PCA(Principle Component Analysis) a...
Data Science with R in 4 Weeks -
Regression Analysis 回归分析是非常有用的分析方法，而线性回归又是回归分析中常用的方法。有一个著...
Data Science with R in 4 Weeks -
Kmean cluster analysis 基本思想和hierarchical 类似，但是，Kmean需要首先知...
Data Science with R in 4 Weeks -
这会是一个比较长的系列。重点放在如何用R来进行复杂的数据和业务分析，包括：基本数据分析，数据可视化，常用的数据分析...
Data Science with R in 4 Weeks -
Kmean continued Kmean 是一种简单又常用的方法，我们再介绍几个例子以及几个关键问题 1. 如何...

网友评论

本文标题：Data Science with R in 4 Weeks -

本文链接：https://www.haomeiwen.com/subject/tjodkttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Data Science with R in 4 Weeks -|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！