关于游戏流失用户预测的探索

作者: 叉烧拼咸蛋 | 来源:发表于2016-08-01 20:08 被阅读2178次

关于游戏流失用户预测的探索
用户流失预测
游戏用户流失预测数据分析
【Kaggle】Telco Customer Churn 电信用
电信用户流失预测
用户流失预测案例分析
GraphLab 中文开发文档
商业用户流失预测报告
Python实战 | 银行用户流失预测
消除游戏的留存分析法

目前很多游戏产品，会对回流的用户推送回归礼包，以增强其回归后的留存。但是很多时候更希望的是在用户流失之前就“未卜先知”，对有流失风险的用户及时采取措施。

继上回尝试在游戏中做付费道具关联分析，TEAM又尝试了用户流失预测的建模。大体的思路参考了张文彤教授著的《IBM SPSS数据分析与挖掘实战案例精粹》中应用的电信用户预测案例，该模型的泛用性强，对数据的要求也并不严苛，很适合放在游戏中进行。

1. 数据采集

数据采集周期上我们以两个月的数据作为分析基础。利用第一个月用户的数据表现作为因变量，然后根据同一批用户第二个月的用户留存/流失情况，建立预测模型得到流失规则。

考虑到公司儿童游戏的特点（生命周期长且季节性波动明显），以月度作为预测跨度，即根据用户前一个月的游戏情况，预测其在下一个月（即接下来30天）。如果是手游，以周甚至日为跨度可能更适合？

数据采集周期

接下来的问题是，到底需要采集哪些字段的数据？即哪些变量可能影响到用户留存/流失？这一步应该尽量考虑周全，能够反映用户在游戏中各个维度表现的数据都可以加入，可能包括以下几个方面：

1）反映用户活跃：登录天数、在线时长、登录频次等等；

2）反映用户游戏表现：等级、竞技场段位、VIP等级、战斗力等等；

3）反映用户游戏行为：某些关键功能的使用情况、关卡通关情况、BOSS挑战情况、重要活动参与率等等；

4）反映用户资源拥有情况：服装/装备/宠物拥有数量、强力服装/装备/宠物拥有情况、游戏货币拥有情况等等；

5）反映用户社交情况：家族参与情况、活跃好友数量、发言情况等等。

6）反映用户消费情况：历史游戏货币兑换量、当月游戏货币兑换量、VIP开通月数、当月VIP续费情况等等；

2. 数据探索与建模

SPSS MODELER提供了多种预测方法，根据业务需要我们采用的是C5.0决策树模型，该模型可以直观判别各变量对流失预测的重要程度并输出一系列预测规则。

首先，我们对原始数据进行探索，对比流失用户和留存用户在各变量上的特征，以便我们对流失用户和留存用户的区别有所认识。

流失与留存用户战斗力对比，在中段区间上存在明显差异

第二，我们对数据进行类型、选择、分区、追加等调整，以便使数据的结构更符合建模要求。例如实际数据中，活跃用户的30日流失占比仅约10%左右，比例过低可能对模型有所影响（命中的规则绝大部分可能是针对留存用户的，而业务层面上我们更关注流失用户的规则），因此我们对留存用户进行随机抽样以使样本总体中留存与流失的比例为3：1。

MODELER流示例

第三，调整C5.0的参数，包括误分类损失成本（将部分低活跃用户也预测为流失用户的成本）、修剪严重性及子分支记录数（减少最终产出的规则数量）等，以优化模型。评估模型是否有效可以通过几个指标来判断：查全率、命中率和模型提升度。

1）命中率：预测流失用户准确数/实际流失用户数

2）查全率：（预测流失用户准确数+预测留存用户准确数）/整体用户数

上述指标到底达到多少才算是比较好的模型呢？其实并没有统一的标准，达到80%以上我们认为就可以接受了。实际操作中，除了看指标外，还应当考虑后续业务的实际应用情况，过分追求指标可能会导致最终产生的规则过多/过少、覆盖的命中用户比例过少等情况，不利于实际业务应用。

3. 结果输出与应用

在多次尝试调整参数后，最终得出一个指标和业务理解都比较能够接受的模型。主要输出的结果包括预测变量重要性和规则集。

模型输出：变量对流失的影响重要程度

透过上图我们可以了解到哪些变量对用户的流失与否产生了较重要的影响，从而更深入地对比流失/留存用户在这些变量上的特征，进而在业务上做相应的优化。举个例子，我们得知战斗力是一个重要的变量，而战力段位在3W-4.5W区间的用户更容易流失，在此区间的流失用户平均只拥有1件强力装备而同区间留存用户则平均拥有3件，那么我们或许可以认为流失用户在获取强力装备上存在障碍以至留存动力不足，考虑对有流失风险的该区间用户在获取强力装备上采取协助引导的措施。

模型输出：流失预测规则集

得出的规则表示如果某个用户前一个月的数据表现满足该规则，则该用户在下个月很有可能会流失。模型所产出的规则是互相独立的，每个有流失风险的用户只可能满足其中某一条规则。在得到这些规则后，开发人员可以根据这些规则进行设计，当某个用户登陆游戏时，通过后台自动分析该用户前一个月的数据表现，若发现符合某一条预测规则，则对该用户推送某些营销活动以期望延缓其流失。

最后，我们可以跟踪这批被打上流失风险标签的用户进行跟踪，分组对比有推送营销活动与没推送营销活动的留存情况，以检验模型及营销活动的有效性。