用户流失总结

作者: 马路仔 | 来源:发表于2020-03-21 17:38 被阅读0次

用户流失总结
用户流失预测案例分析
读后感——三节课：「沉默的用户」和「流失的用户」，比「活跃的用户
用户流失率高怎么破？
用户流失
流失用户预警分析
搭建流失用户召回体系，帮你减少用户流失
留存率相关
游戏数据分析实战笔记
怎样挽回流失用户

项目背景：携程作为中国领先的综合性旅行服务公司，每天向超过2.5亿会员提供全方位的旅行服务，在这海量的网站访问量中，我们可分析用户的行为数据来挖掘潜在的信息资源。其中，客户流失率是考量业务成绩的一个非常关键的指标。此次竞赛的目的是为了深入了解用户画像及行为偏好，找到最优算法，挖掘出影响用户流失的关键因素，从而更好地完善产品设计、提升用户体验

项目介绍：请分析影响客户流失的关键因素，并通过算法预测客户访问的转化结果

项目过程

数据集探索

image.png

数据预处理

先用jupyter notebook导入原始的训练集和测试集数据，然后统计缺失值的比例，然后在用Pycharm对缺失值按列名处理。

缺失值占比小于20%：
fillNauWithMean = ['commentnums',  # 酒店评论数
                   'novoters',  # 酒店当前评论人数
                   'cancelrate',  # 当前酒店历史取消率 11718
                   'price_sensitive',  # 价格敏感指数
                   'hoteluv',  # 当前酒店历史UV
                   'hotelcr',  # 当前酒店历史转化率
                   'cr_pre',  # 24小时历史浏览次数最多酒店历史cr 29397
                   'lowestprice',  # 当前酒店可定最低价
                   'lowestprice_pre2',  # 24h 访问酒店可预定最低价
                   'customereval_pre2',  # 24小时历史浏览酒店客户评分均值 28633条记录缺失
                   'commentnums_pre',  # 24小时历史浏览次数最多酒店点评数
                   'commentnums_pre2',  # 24小时历史浏览酒店点评数均值
                   'cancelrate_pre',  # 24小时内已访问次数最多酒店历史取消率
                   'novoters_pre2',  # 24小时历史浏览酒店评分人数均值
                   'novoters_pre',  # 24小时历史浏览次数最多酒店评分人数
                   'deltaprice_pre2_t1',  # 24小时内已访问酒店价格与对手价差均值
                   'lowestprice_pre',  # 24小时内已访问次数最多酒店可订最低价
                   'uv_pre',  # 24小时历史浏览次数最多酒店历史uv
                   'uv_pre2',  # 24小时历史浏览酒店历史uv均值
                   'businessrate_pre2',  # 24小时内已访问酒店商务属性指数均值
                   'cityuvs',  # 昨日访问当前城市同入住日期的app uv数
                   'cityorders',  # 昨日提交当前城市同入住日期的app订单数
                   'visitnum_oneyear',  # 年访问次数
                   ]

缺失值占比20%-50%：
fillNauWith999 = ['ordercanncelednum',  # 取消订单数 242114
                  'landhalfhours',  # 24小时登陆时长 28633
                  'starprefer',  # 星级偏好 225053
                  "consuming_capacity",  # 消费能力指数 226108
                  'historyvisit_avghotelnum',  # 近3个月用户历史日均访问酒店数 302069
                  'delta_price1',  # 用户偏好价格-24小时浏览最多酒店价格
                  'businessrate_pre',  # 24小时历史浏览次数最多酒店商务属性指数
                  'ordernum_oneyear',  # 年订单数
                  'avgprice',  # 平均价格
                  'delta_price2',  # 用户偏好价格-24小时浏览酒店平均价格
                  'customer_value_profit',  # 客户近一年的价值
                  'ctrip_profits',  # 客户价值
                  'lasthtlordergap',  # 一年内距离上次下单时长 缺失值占242114条记录
                  'lastpvgap',  # 一年内距上次访问时长 缺失值共97127记录
                  'cr'  # 用户转化率
                  ]

缺失值大于50%：
fillfeatureswith0 = ['historyvisit_7ordernum', #近7天用户历史订单数
                  'historyvisit_totalordernum', #近1年用户历史订单数
                  'ordercanceledprecent', #用户一年内取消订单率
                  'historyvisit_visit_detailpagenum'  # 7天内访问酒店详情页数
                  ]

缺失值填充：缺失值占比小于20%的用均值填充、缺失值占比20%-50%的用-999填充、缺失值大于50%用0填充。
根据统计分析，decisionhabit_user这个特征大于40的数据占的比例很少，所以把大于40的值改成1，小于40的改成0；

再根据用户和酒店进行分组（这里需要用到聚类KMeans），

user_group= ['historyvisit_7ordernum', #近7天用户历史订单数
                  'historyvisit_totalordernum', #近1年用户历史订单数
                  'ordercanceledprecent', #用户一年内取消订单率
                  'historyvisit_visit_detailpagenum',  # 7天内访问酒店详情页数
                  'historyvisit_avghotelnum' , # 近3个月用户历史日均访问酒店数 302069
                    'lowestprice_pre'  # 24小时内已访问次数最多酒店可订最低价
             ]
hotel_group=[
                    'commentnums',  # 酒店评论数
                   'novoters',  # 酒店当前评论人数
                   'cancelrate',  # 当前酒店历史取消率 11718
                   'hoteluv',  # 当前酒店历史UV
                   'hotelcr',  # 当前酒店历史转化率
                   'lowestprice' # 当前酒店可定最低价
 ]

除此之外，这里有部分连续特征需要处理：starprefer，avgprice，consuming_capacity 定义三个函数，starprefer中值等于-999的返回为0，小于50的值返回为1，50-80的值返回为2，其余返回为3；avgprice中值等于-999的返回为0，小于300的值返回为1，小于1000的值返回为2，其余返回为3；consuming_capacity中值等于-999的返回为0，小于50的值返回为1，其余返回为2；

#部分连续特征处理
numFeatures=['starprefer','avgprice','consuming_capacity']
def deal_starprefer(x):
    if x==-999:
        return 0
    elif x<50:
        return 1
    elif x<80:
        return 2
    else:
        return 3
def deal_avgprice(x):
    if  x==-999:
        return 0
    elif x< 300:
        return 1
    elif x<1000:
        return 2
    else:
        return 3
def deal_consuming_capacity(x):
    if  x==-999:
        return 0
    elif x< 50:
        return 1
    else:
        return 2

根据用户和酒店进行分组,然后通过KMeans生成新的特征，但是要进行get_dummies，再对分类变量进行one-hot-encode
构造新特征，是否工作日/星期几/预定时间与入住时间间隔，因为工作日和周末对客户预定酒店有很大影响，所以要另外添加特征来分析。
如果同一个用户连续几天预定了同一家酒店，第一天的数据在训练集上，那么之后几天的数据则会过拟合，所以要把同一个用户的信息放到同一个数据集中，根据这个思路构造一个新的特征：用户标签，需要用到hash函数；

#用户标签：usertag = 用户一年内取消订单数+ 近3个月用户历史日均访问酒店数+用户年订单数+客户价值_近1年+客户价值+用户转化率+年访问次数
dataProcessed['usertag']= dataProcessed.ordercanncelednum\
                                +dataProcessed.historyvisit_avghotelnum \
                                +dataProcessed.ordernum_oneyear \
                                +dataProcessed.customer_value_profit \
                                +dataProcessed.ctrip_profits \
                                +dataProcessed.cr   \
                                +dataProcessed.visitnum_oneyear

Train，Test数据分割用来训练模型，首先把训练集数据按照用户标签特征进行排序，之后按照7比3的比例分成Train数据和Test数据：
建模需要用到的数据为Train数据，Test数据和Pred数据，这里的Pred数据是之前处理好的测试集数据；
构建一个调参函数，这里要用到网络搜索GridsearchCV，调整树的最大深度，每个叶子节点个数，步长，每棵树随机采样列数占比以及样本随机采样的比例来找出最优参数，我用的模型是XGBoost，找到最优参数后，紧接着用找到的最优参数来训练XGB模型，然后用模型进行预测，这里使用了precision_recall_curve函数输出所以精确度和召回率，在精确度大于0.97的数据中找出最大召回率，然后保存预测结果。到这里这个案例差不多已经完成了，还剩下最后的上线。
大体大体思路是如何找出有效特征并且构建新的有效特征，对于一个模型来说，通过调参来提升模型毕竟有限，最重要的还是特征工程。这里的特征大致分为3类，订单相关指标，酒店相关指标和用户相关指标，列出每个指标中重要的特征着重分析。

用户流失总结
项目背景：携程作为中国领先的综合性旅行服务公司，每天向超过2.5亿会员提供全方位的旅行服务，在这海量的网站访问量中...
用户流失预测案例分析
本文是对携程用户流失预测案例的一个总结，主要任务是对客户流失率进行建模分析，并挖掘出影响用户流失的关键因素。目录...
读后感——三节课：「沉默的用户」和「流失的用户」，比「活跃的用户
先简单总结一下各种用户： 1、沉默用户：产品对用户有价值，但用户不发声、不积极 2、流失用户：用户的用的不爽，直接...
用户流失率高怎么破？
在讨论减少用户流失的方法论之前，我们首先得明白用户流失是如何定义的。 01什么是用户流失？用户流失是指在特定...
用户流失
微博、社交网站高端用户容易流失，低收入用户流失率少于高端用户，之所以减少使用，超过40%的人认为是“太浪费时间了”...
流失用户预警分析
为什么流失用户重要流失用户对于平台来说都是非常重要的（电商类平台为例）用户流失直接造成了gmv的下降用户流失...
搭建流失用户召回体系，帮你减少用户流失
什么是流失用户？定义流失用户是打造流失用户召回体系的起点。流失用户，一般指那些曾经使用过产品或服务，但后来由于某...
留存率相关
1、对流失用户 a、原因分析通过数据分析或用户调研分析其流失的原因： 1）流失前行为 2）流失用户的特征类型 3...
游戏数据分析实战笔记
如何合理定义流失用户？流失用户回归率=回归用户/流失用户*100% 拐点理论：X轴上数值的增加会带来Y轴上数值的大...
怎样挽回流失用户
怎么挽回流失用户？这个问题实际上是要拆解成3个问题如何定义流失用户如何定位用户流失原因用什么策略可以召回流失...

用户流失总结

数据集探索

数据预处理

相关文章

用户流失总结

用户流失预测案例分析

读后感——三节课：「沉默的用户」和「流失的用户」，比「活跃的用户

用户流失率高怎么破？

用户流失

流失用户预警分析

搭建流失用户召回体系，帮你减少用户流失

留存率相关

游戏数据分析实战笔记

怎样挽回流失用户

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

数分

Python