美文网首页
CDNow网站用户消费行为分析

CDNow网站用户消费行为分析

作者: 蓝天花园 | 来源:发表于2021-02-27 21:34 被阅读0次

写这本篇文章的目的是为了加深对数据分析的理解,文章以模仿为主,利用pandas,matplotlib进行数据处理和数据可视化分析,数据来源和鲸社区分享的CDNow网站的用户购买明细。一共有用户ID,购买日期,购买数量,购买金额四个字段。

1.数据处理
2.用户总体消费分析
3.用户个体消费数据分析
4.用户消费行为周期分析
5.用户复购率与回购率

数据处理

导入数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime
plt.style.use('ggplot')#使用自带的风格进行美化

导入常用的库

columns = ['user_id','order_dt','order_products','order_amount']
df = pd.read_table(r'C:\Users\m\Desktop\CDNOW_master.txt',names = columns,sep='\s+')
  • 加载包和数据,文件是txt格式,用read_table打开,因为源数据不包括表头,所以需要赋予表头字段,字符串是空格分隔,用\s+表示匹配任意空白符。
  • 表头字段分为用户ID,购买日期,订单数,订单金额来分析,基本上这四个字段就可以进行丰富的分析。
#默认输出前五行
df.head()
  • 观察数据,order_dt列表示时间,但只是一串年月日的数字,后续需要数据类型转换。
  • 数据中存在一个用户同一天或不同天购买多次,如用户ID为2在12号购买了两次,这个细节要特别留意。

描述性统计

#汇总各列统计信息
df.describe()

describe是描述统计,对用户数据进行整体性判断:

  1. 从描述信息中,用户每个订单平均购买2.4个商品,每个订单平均消费35元
  2. 购买商品的标准差为2.33,说明数据有一定的波动性;中位数为2,75分位数为3,说明大部分订单购买数量不多。最大值为99,购买量比较大。购买金额的情况差不多,75分位数为43,大部分都集中在小额。

总体数据来看,大部分用户都属于小额,也贡献了收入的大头,数据分布是呈长尾形态,俗称二八。

数据处理

df.info()

查看数据类型、数据是否存在空值,原数据是很干净的数据,没有空值。接下来进行时间数据类型转换。

df['order_date'] = pd.to_datetime(df.order_dt,format="%Y%m%d")
df['month'] = df.order_date.values.astype('datetime64[M]')

数据类型的转换:

  • pd.to_datetime可以将数字转换为时间类型,format参数用于匹配。%Y匹配前四位数字1997,小写y只匹配97,%m匹配01,%d匹配01,返回结果为1997-01-01。
  • astype可以将时间类型进行转换,[M]转换为月份,这里取月份窗口作为消费频率。

    小结

到该步骤,我们通过描述性统计对数据有大概的了解,呈二八形态,也已经将数据类型处理为合适的类型,方便后续的分析。

用户总体消费分析

按照月份维度来分析用户总体消费趋势

  • 每月的总销售额
  • 每月的总销量
  • 每月的消费人数
month_grouped = df.groupby('month')

按月份进行统计分组

month_grouped.order_amount.sum().plot()
plt.title('总销售额')
plt.show()
  • 按月统计CD的销量金额,从图中可以知道,前三个月的销量金额非常高。数据比较异常,而后期的销量金额则很平稳
month_grouped.order_dt.count().plot()
plt.title('消费次数')
plt.show()
  • 图中可知前三个月的消费订单数在10000~12000笔区间中,订单数非常高涨,后期平均维持在2500笔左右。
month_grouped.order_products.sum().plot()
plt.title('总销量')
plt.show()
  • 和销量金额一样,每月的产品销量呈现早期销量非常大,后期平稳下降的趋势。

三个折线图的整体趋势基本一致,可以看出,前三个月的销量特别高涨,而三月份之后骤然下降,而后趋于平稳。为什么会出现骤然下降原因呢?第一假设用户数据出现问题,早期时间段的用户中存在异常值。第二假设是各类促销活动,但这里只有消费数据,所以无法判断。

month_grouped.user_id.apply(lambda x:len(x.unique())).plot()
plt.title('消费人数')
plt.show()

另一方面,通过消费人数的折线图看出在2月到3月消费人数稍有下降,但总销量与总销量金额依然上升,是不是说明3月份存在高价值的客户。
小结

上面四个折线图的整体趋势一致,呈现二八形态。通过消费人数分析了解到3月份存在高价值的客户,也说明我们应该重点挖掘3月份中的用户,重点发展高价值客户。

用户个体消费数据分析

前面我们是按月份维度进行整体来看数据趋势。接下来我们需要看个体消费能力如何,我们划分了五个方向:

  1. 用户消费金额,消费次数的描述性统计
  2. 用户消费金额,消费次数的散点图
  3. 用户消费金额的分布图(二八法则)
  4. 用户消费次数的分布图
  5. 用户累计消费金额的占比(百分之多少的用户占了百分之多少的消费额)

用户消费金额,消费次数的描述统计

用户的描述性统计
group_user = df.groupby('user_id')
print(group_user.sum().describe())

从用户角度来看,每位用户平均购买7张CD,购买量的最大值购买了1033张。用户的平均消费金额是100元左右,标准差为240。两者结合分位数和最大值看,平均数和75分位数接近,存在小部分高消费用户,符合二八法则。

用户消费金额和消费次数的散点图

group_user.sum().plot.scatter(x='order_amount',y='order_products')
plt.title('用户散点图')
plt.show()
  • 从图上看用户比较健康而且规律性很强,整体符合CD网站商品单一的销售数据,金额和商品呈线性,没几个离散点。

用户消费金额的分布图(二八法则)

group_user.sum().order_amount.plot.hist(bins = 20)
plt.show()
  • 从图中看用户的消费呈集中趋势,可能是有个别的极大值干扰导致。可以排除极大值再看看分布。
group_user.sum().query("order_amount <800").order_amount.plot.hist(bins = 20)
plt.show()
  • 从直方图图可知,绝大部分用户呈现集中在低的消费档次,将近半数的用户消费金额不超过40元,高消费用户(>200元)不超过2000人,高消费在图中几乎看不到,符合消费行为的行业规律。

用户消费次数的分布图(二八法则)

group_user.sum().query("order_products <100").order_products.plot.hist(bins = 40)
plt.show()
  • 大部分用户购买CD的数量在7张内,大量购买CD的用户数量很低。

用户累计消费金额的占比

前面的分析对用户的消费行为有一个大概的了解,接下来分析用户质量。因为消费行为有明显的二八倾向,我们需要知道高质量用户为消费贡献了多少份额。

user_amount = df.groupby('user_id').order_amount.sum().sort_values().reset_index()
user_amount['amount_cumsum'] = user_amount.order_amount.cumsum()
print(user_amount.tail())
  • 按用户的消费金额升序,使用cumsum累加函数。逐行计算累计的金额,获取最后的总消费金额为2500315。
amount_total = user_amount.amount_cumsum.max()
user_amount['prop'] = user_amount.apply(lambda x:x.amount_cumsum / amount_total,axis = 1)
print(user_amount.tail())

转换用户贡献消费金额百分比

user_amount.prop.plot()
plt.xlabel('用户数量')
plt.ylabel('用户累计贡献百分比')
plt.show()
  • 绘制趋势图,横坐标是以贡献金额大小排序的用户,纵坐标则是用户累计贡献百分比。前面知道总体用户为24000左右,图中可以看到前20000个用户贡献40%,后面4000位用户贡献了60%,确实呈现二八倾向。也就是说我们维护这4000个用户就可以达到业绩KPI完成60%。

小结

到此我们大概可以了解用户个体消费呈现二八形态,大部分用户都属于小金额用户,符合消费行业的行规律。通过用户累计消费金额占比趋势图有大概4000个用户贡献了总体的60%,如果能把4000个用户运营的更好就可以提高到占比70%左右,更容易提高业绩。

用户消费行为周期分析

  • 用户第一次消费(首购)
  • 用户最后一次消费
  • 新老客户消费比
  • 用户生命周期
  • 用户购买周期
  • 用户复购率与回购率

新用户第一次消费

group_user.month.min().value_counts()
  • 按用户分组求月份的最小值,即用户消费行为中的第一次消费时间。图中可知所有用户的第一次消费都集中在前三个月。

用户最后一次消费

group_user.month.max().value_counts()
group_user.month.max().value_counts().plot()
plt.xlabel('月份')
plt.ylabel('最后一次消费人数')
plt.show()
  • 观察用户的最后一次消费时间。绝大部分数据依然集中在前三个月,后续的时间段内有用户消费,但增长缓慢递增,存在一定的用户回购
  • 前面提到的第一假设的异常趋势得到解释,但这只是部分用户的订单数据,所以有一定局限性。

新旧用户消费比

user_new_old = group_user.order_date.agg(['min','max'])
new_old = (user_new_old['min'] == user_new_old['max']).value_counts()
print(new_old)
  • 按用户分组,计算用户第一消费和最后一次消费时间,如果新旧时间一致,说明只消费了一次。统计数据可知有一半的用户只消费一次。
plt.pie(x = new_old,
        labels=['仅消费一次','多次消费'],
        autopct= '%.1f%%',
        shadow= True,
        explode=[0.08,0],
        textprops={'fontsize':11})
plt.title('新老用户消费比')
plt.show()
  • 绘制饼图更直观反映现象,超过一半用户仅消费一次,这也说明留存用户效果不好,营运效果不佳。

用户购买周期

order_diff = group_user.apply(lambda x:x['order_date']-x['order_date'].shift())
print(order_diff.head(10))
  • 每个用户的每次购买时间间隔,用户1只购买一次,所以为空值,用户2的第一笔订单与第二笔订单在同一天购买的。
order_diff.describe()
  • 每个用户的购买时间间隔平均是68天,间隔最长的是533天。想要召回用户,在60天左右的消费间隔也是比较好的。

消费周期分布

(order_diff/ np.timedelta64(1,'D')).hist(bins =20)
plt.show()
  • 数据呈指数分布,大部分用户的消费周期确实比较短,低于100天。

用户生命周期

orderdate_min = group_user.order_date.min()
orderdate_max = group_user.order_date.max()
user_life = orderdate_max-orderdate_min
print(user_life.head())
(orderdt_max-orderdt_min).describe()
  • 所有的用户平均生命周期有134天,中位数为0天也就是说有一半用户的生命周期只购买了一次。接下来看一下分布情况。
((orderdate_max-orderdate_min)/np.timedelta64(1,'D')).hist(bins=15)
  • 有一半的用户只消费一次,所以生命周期的大头都集中在0天。
  • 不妨将只消费了一次的新客排除,来计算所有消费过两次以上的老客的生命周期。
life_time = (orderdate_max - orderdate_min).reset_index()
print(life_time.head())
life_time['life_time'] = life_time.order_date / np.timedelta64(1,'D')
life_time[life_time.life_time > 0].life_time.hist(bins = 100)
plt.show()
  • 这是双峰趋势图。20天内生命周期的用户是一个高峰,但无法持续,在用户首次消费30天内应该尽量引导,延长其生命周期。少部分用户集中在50天~300天,属于普通型的生命周期。高质量用户的生命周期,集中在400天以后,这已经属于忠诚用户了。
用户复购率与回购率

复购率

复购率的定义:在某时间窗口内消费两次及以上的用户在总消费用户中占比。这里的时间窗口是月,如果一个用户在同一天下了两笔订单,这里也将他算作复购用户

pivoted_df = df.pivot_table(index= 'user_id',
                            columns='month',
                            values='order_date',
                            aggfunc='count').fillna(0)
print(pivoted_df.head())
  • 每个用户在每月的订单数,其中这里没有消费过的标记0。
pivoted_df_tranf = pivoted_df.applymap(lambda x: 1 if x>1 else np.nan if x ==0 else 0 )

  • 数据转换一下,消费2次以上记为1,消费1次记为0,消费0次记为NAN
(pivoted_df_tranf.sum() / pivoted_df_tranf.count()).plot(figsize = (10,4))
plt.show()
  • 这里用sum和count相除即可计算出复购率。因为这两个函数都会忽略NaN,而NaN是没有消费的用户。count计算的是总的消费用户数,sum计算了两次以上的消费用户。
  • 图上可以看到早期的复购率并不高,是因为早期大量新用户加入,如一月份的复购率只有6%左右。而到后期,这是的复购率就相对稳定,在20%左右。
  • 单看新客和老客,复购率有三倍左右的差距。

回购率
接下来计算回购率,回购率是某一个时间窗口内消费的用户,在下一个时间窗口人就消费的占比。

pivoted_amount = df.pivot_table(index = 'user_id',
                                columns = 'month',
                                values = 'order_amount',
                                aggfunc = 'mean').fillna(0)
columns_month = df.month.sort_values().astype('str').unique()
pivoted_amount.columns = columns_month
print(pivoted_amount.head())
  • 这里利用每个用户每个月平均消费金额作为练习。
pivoted_purchase = pivoted_amount.applymap(lambda x:1 if x>1 else 0)
print(pivoted_purchase.head())
  • 再次转换数据,只要有过购买,记为1,反之为0。
def purchase_return(data):
    status = []
    for i in range(17):
        if data[i] == 1: #如本月消费
            if data[i+1] == 1: #下个月也消费
                status.append(1) #标记为1
            if data[i+1] == 0: #下个不消费
                status.append(0) #标记为0
        else:
            status.append(np.NAN)
    status.append(np.NAN)
    return pd.Series(status,index=columns_month)
pivoted_purchase_return = pivoted_purchase.apply(purchase_return,axis=1)
print(pivoted_purchase_return.head())
  • 创建一个判断函数。data是输入的数据,status是空列表,用来保存用户是否回购的字段。
  • 判断逻辑:如果用户本月进行过消费,且下月消费过,记为1,没有消费过是0。本月若没有进行过消费,为NaN,后续的统计中进行排除。
df_purchase = (pivoted_purchase_return.sum() / pivoted_purchase_return.count()).reset_index()
df_purchase.columns = ['Date', 'PurchaseRate'] #重新给列名赋值
df_purchase['Date'] = df_purchase.Date.astype(str).apply(lambda x:x[:-3]) #获取年月

plt.figure(figsize = (15,5))
plt.plot(df_purchase.Date, df_purchase.PurchaseRate)
plt.show()
  • 上图可以看出,在初期用户的回购率并不高,1月的回购率只有15%左右,4月份起回购率稳定在30%左右,波动性也较强。
  • 对回购率的分析,再次说明了对于新用户,在其第一次消费后的三个月内是一段重要的时期,需要营销策略积极引导其再次消费及持续消费。
  • 另外,对于有持续消费的老客,也要适时推出反馈老客户的优惠活动,以加强老客的忠诚度。

小结
到此用户消费行为周期分析已完成,通过新旧用户消费比,发现CDNOw网站留存用户的效果不高,营运效果不佳,进一步通过用户的复购率和回购率的分析,说明在新用户消费后的三个月是营销的好时段,应做好营销策略引导用户再次消费以及持续消费,也要适当推出优惠活动,保持老用户的支持度。

到此CDNow网站用户消费行为分析以完成,后续学习更多再来补充!

相关文章

网友评论

      本文标题:CDNow网站用户消费行为分析

      本文链接:https://www.haomeiwen.com/subject/pqzyfltx.html