美文网首页数分Python
用户流失总结

用户流失总结

作者: 马路仔 | 来源:发表于2020-03-21 17:38 被阅读0次

    项目背景:携程作为中国领先的综合性旅行服务公司,每天向超过2.5亿会员提供全方位的旅行服务,在这海量的网站访问量中,我们可分析用户的行为数据来挖掘潜在的信息资源。其中,客户流失率是考量业务成绩的一个非常关键的指标。此次竞赛的目的是为了深入了解用户画像及行为偏好,找到最优算法,挖掘出影响用户流失的关键因素,从而更好地完善产品设计、提升用户体验

    项目介绍:请分析影响客户流失的关键因素,并通过算法预测客户访问的转化结果

    项目过程

    数据集探索

    image.png

    数据预处理

    先用jupyter notebook导入原始的训练集和测试集数据,然后统计缺失值的比例,然后在用Pycharm对缺失值按列名处理。

    缺失值占比小于20%:
    fillNauWithMean = ['commentnums',  # 酒店评论数
                       'novoters',  # 酒店当前评论人数
                       'cancelrate',  # 当前酒店历史取消率 11718
                       'price_sensitive',  # 价格敏感指数
                       'hoteluv',  # 当前酒店历史UV
                       'hotelcr',  # 当前酒店历史转化率
                       'cr_pre',  # 24小时历史浏览次数最多酒店历史cr 29397
                       'lowestprice',  # 当前酒店可定最低价
                       'lowestprice_pre2',  # 24h 访问酒店可预定最低价
                       'customereval_pre2',  # 24小时历史浏览酒店客户评分均值 28633条记录缺失
                       'commentnums_pre',  # 24小时历史浏览次数最多酒店点评数
                       'commentnums_pre2',  # 24小时历史浏览酒店点评数均值
                       'cancelrate_pre',  # 24小时内已访问次数最多酒店历史取消率
                       'novoters_pre2',  # 24小时历史浏览酒店评分人数均值
                       'novoters_pre',  # 24小时历史浏览次数最多酒店评分人数
                       'deltaprice_pre2_t1',  # 24小时内已访问酒店价格与对手价差均值
                       'lowestprice_pre',  # 24小时内已访问次数最多酒店可订最低价
                       'uv_pre',  # 24小时历史浏览次数最多酒店历史uv
                       'uv_pre2',  # 24小时历史浏览酒店历史uv均值
                       'businessrate_pre2',  # 24小时内已访问酒店商务属性指数均值
                       'cityuvs',  # 昨日访问当前城市同入住日期的app uv数
                       'cityorders',  # 昨日提交当前城市同入住日期的app订单数
                       'visitnum_oneyear',  # 年访问次数
                       ]
    
    缺失值占比20%-50%:
    fillNauWith999 = ['ordercanncelednum',  # 取消订单数 242114
                      'landhalfhours',  # 24小时登陆时长 28633
                      'starprefer',  # 星级偏好 225053
                      "consuming_capacity",  # 消费能力指数 226108
                      'historyvisit_avghotelnum',  # 近3个月用户历史日均访问酒店数 302069
                      'delta_price1',  # 用户偏好价格-24小时浏览最多酒店价格
                      'businessrate_pre',  # 24小时历史浏览次数最多酒店商务属性指数
                      'ordernum_oneyear',  # 年订单数
                      'avgprice',  # 平均价格
                      'delta_price2',  # 用户偏好价格-24小时浏览酒店平均价格
                      'customer_value_profit',  # 客户近一年的价值
                      'ctrip_profits',  # 客户价值
                      'lasthtlordergap',  # 一年内距离上次下单时长 缺失值占242114条记录
                      'lastpvgap',  # 一年内距上次访问时长 缺失值共97127记录
                      'cr'  # 用户转化率
                      ]
    
    缺失值大于50%:
    fillfeatureswith0 = ['historyvisit_7ordernum', #近7天用户历史订单数
                      'historyvisit_totalordernum', #近1年用户历史订单数
                      'ordercanceledprecent', #用户一年内取消订单率
                      'historyvisit_visit_detailpagenum'  # 7天内访问酒店详情页数
                      ]
    

    缺失值填充:缺失值占比小于20%的用均值填充、缺失值占比20%-50%的用-999填充、缺失值大于50%用0填充。
    根据统计分析,decisionhabit_user这个特征大于40的数据占的比例很少,所以把大于40的值改成1,小于40的改成0;

    • 再根据用户和酒店进行分组(这里需要用到聚类KMeans),
    user_group= ['historyvisit_7ordernum', #近7天用户历史订单数
                      'historyvisit_totalordernum', #近1年用户历史订单数
                      'ordercanceledprecent', #用户一年内取消订单率
                      'historyvisit_visit_detailpagenum',  # 7天内访问酒店详情页数
                      'historyvisit_avghotelnum' , # 近3个月用户历史日均访问酒店数 302069
                        'lowestprice_pre'  # 24小时内已访问次数最多酒店可订最低价
                 ]
    hotel_group=[
                        'commentnums',  # 酒店评论数
                       'novoters',  # 酒店当前评论人数
                       'cancelrate',  # 当前酒店历史取消率 11718
                       'hoteluv',  # 当前酒店历史UV
                       'hotelcr',  # 当前酒店历史转化率
                       'lowestprice' # 当前酒店可定最低价
     ]
    
    • 除此之外,这里有部分连续特征需要处理:starprefer,avgprice,consuming_capacity 定义三个函数,starprefer中值等于-999的返回为0,小于50的值返回为1,50-80的值返回为2,其余返回为3;avgprice中值等于-999的返回为0,小于300的值返回为1,小于1000的值返回为2,其余返回为3;consuming_capacity中值等于-999的返回为0,小于50的值返回为1,其余返回为2;
    #部分连续特征处理
    numFeatures=['starprefer','avgprice','consuming_capacity']
    def deal_starprefer(x):
        if x==-999:
            return 0
        elif x<50:
            return 1
        elif x<80:
            return 2
        else:
            return 3
    def deal_avgprice(x):
        if  x==-999:
            return 0
        elif x< 300:
            return 1
        elif x<1000:
            return 2
        else:
            return 3
    def deal_consuming_capacity(x):
        if  x==-999:
            return 0
        elif x< 50:
            return 1
        else:
            return 2
    
    • 根据用户和酒店进行分组,然后通过KMeans生成新的特征,但是要进行get_dummies,再对分类变量进行one-hot-encode

    • 构造新特征,是否工作日/星期几/预定时间与入住时间间隔,因为工作日和周末对客户预定酒店有很大影响,所以要另外添加特征来分析。

    • 如果同一个用户连续几天预定了同一家酒店,第一天的数据在训练集上,那么之后几天的数据则会过拟合,所以要把同一个用户的信息放到同一个数据集中,根据这个思路构造一个新的特征:用户标签,需要用到hash函数;

    #用户标签:usertag = 用户一年内取消订单数+ 近3个月用户历史日均访问酒店数+用户年订单数+客户价值_近1年+客户价值+用户转化率+年访问次数
    dataProcessed['usertag']= dataProcessed.ordercanncelednum\
                                    +dataProcessed.historyvisit_avghotelnum \
                                    +dataProcessed.ordernum_oneyear \
                                    +dataProcessed.customer_value_profit \
                                    +dataProcessed.ctrip_profits \
                                    +dataProcessed.cr   \
                                    +dataProcessed.visitnum_oneyear
    
    • Train,Test数据分割用来训练模型,首先把训练集数据按照用户标签特征进行排序,之后按照7比3的比例分成Train数据和Test数据:
      建模需要用到的数据为Train数据,Test数据和Pred数据,这里的Pred数据是之前处理好的测试集数据;

    • 构建一个调参函数,这里要用到网络搜索GridsearchCV,调整树的最大深度,每个叶子节点个数,步长,每棵树随机采样列数占比以及样本随机采样的比例来找出最优参数,我用的模型是XGBoost,找到最优参数后,紧接着用找到的最优参数来训练XGB模型,然后用模型进行预测,这里使用了precision_recall_curve函数输出所以精确度和召回率,在精确度大于0.97的数据中找出最大召回率,然后保存预测结果。到这里这个案例差不多已经完成了,还剩下最后的上线。
      大体大体思路是如何找出有效特征并且构建新的有效特征,对于一个模型来说,通过调参来提升模型毕竟有限,最重要的还是特征工程。这里的特征大致分为3类,订单相关指标,酒店相关指标和用户相关指标,列出每个指标中重要的特征着重分析。

    相关文章

      网友评论

        本文标题:用户流失总结

        本文链接:https://www.haomeiwen.com/subject/zpvyyhtx.html