美文网首页产品数据分析数据分析
数据分析工作案例: 用户留存问题

数据分析工作案例: 用户留存问题

作者: 陈码工 | 来源:发表于2017-02-08 16:52 被阅读424次

互联网数据分析中总是会遇到产品的留存率问题, 本案例就是一个实际工作中遇到的需求.

一. demand 业务需求

平台: Android
时间周期: 2015.12.25(3.8版本上线)至今
需求数据: 每日的新增用户数目, 次日留存, 第7日留存
需求解读: 获取安卓平台上, 2015-12-25到现在的每一天的新增用户数, 次日留存和第七日留存率三项指标

次日留存数计算方法: first_date = last_date-1
第七日留存数计算方法: first_date = last_date-6

二. raw data 输入数据

1. 表名

mds_wls_sina_weather_activate_retain_user

2. 表的结构与两条样例数据

处理
字段: NA pt_type NA uid last_date first_date time NA NA pv pid location ISP dt pt_type
记录1 : weather activate 天气通 %2BGSN%3A80869018 2014-11-15 2014-11-08 15:44:15 0 1 3.409 P2866 重庆 电信 20151225 activate
记录2: weather activate 天气通 %2BGSN%3A808AB4C6 2014-08-25 2014-07-27 10:02:25 tq 5010 3.329 - 四川 移通 20151225 activate

3 简化后的数据样式

由于表的原始结构存在一些噪音, 因此我们自己可以对其复制一部分的记录, 然后加以简化, 以便自己思考sql语句的写法.

-- 简化的行记录
20151225(dt) 天气通    %2BGSN%3A80869018(uid)  2015-12-25(last_date)   2015-12-25(first_date)  15:44:15    3.409(ver)  P2866(source)   重庆  电信  activate(type)  #第一次启动
20151226 天气通    %2BGSN%3A80869018   2015-12-25  2015-12-25  15:44:15    3.409   P2866   重庆  电信  activate
20151227 天气通    %2BGSN%3A80869018   2015-12-25  2015-12-25  15:44:15    3.409   P2866   重庆  电信  activate
20151228 天气通    %2BGSN%3A80869018   2015-12-25  2015-12-25  15:44:15    3.409   P2866   重庆  电信  activate
20151229 天气通    %2BGSN%3A80869018   2015-12-29  2015-12-25  15:44:15    3.409   P2866   重庆  电信  activate  #第二次启动

三. 知识点

  • date_add()函数: date_add(first_date, 6) --给定的date加上一定的天数

  • case条件语句: sum(case when last_date = first_date then 1 else 0 end) as newuser --类似countif(last_date=first_date)

  • partition分区: Hive中查找数据的时候, 要尽量利用分区来缩小范围, 这样大大提高了效率. 此处, 分区实际上是date, 因此最好一开始就把date给指定了

  • regexp_replace(string, str1, str2): regexp_replace(last_date,'-','') //使用str2替换string中的所有str1

  • 最重要的: sum函数的特性sum函数
    这个网页中, 如果groupby Customer的话, 那就会出现针对Bush, Carter, Adams三个人的三条Sum(OrderPrice)结果.
    select custname, sum(orderDeal) from tb_bill group by custname

  • group by可以与聚合函数搭配, 也就是说前面如果有一个sum(OrderPrice) 或者 count(*)这样的对数值加总的函数的话, 后面常常要带group by.

四. 代码

--七天留存
-- pt_type代表portal_type
-- pv代表portalVersion
-- pid: 渠道号
-- uid: userID
-- 本例子找出来的结果是求2015-12-25~2015-12-31这七天, 即2015-12-25新增用户在2015-12-31当天的留存数目
select first_date,pid,pv,count(1) uv from
(select first_date,pid,pv,uid from mds_wls_sina_weather_activate_retain_user
where dt = '20151231' and pt_type = 'activate'  
and  regexp_replace(last_date,'-','') = dt  -- last-date限定等于2015-12-31
and last_date = date_add(first_date,6)  --last-date同时限定等于first_data+6
and pid in ('x','y') 
and pv in ('x','y')
group by first_date,pid,pv,uid) as t1  --用first_date, pid, pv, uid字段全部上, 代表各个记录不能重复。
group by first_date,pid,pv  -- 仍然表示去重

-- 2015-12-25以来指定渠道集合, 指定版本集合的2ndretain和7threttain
-- 记录可能是同一个用户1001在20151228为first_date, 之后一直用到了20160215, 之间20151228~20160215每天都作为last_date生成了七八十行的记录
-- pt平台

hive -e"select first_date, pid, pv,
sum(case when last_date = first_date then 1 else 0 end) as newuser,
sum(case when last_date = date_add(first_date,1) then 1 else 0 end) as 2nd_retain,
sum(case when last_date = date_add(first_date,6) then 1 else 0 end) as 7th_retain
from mds_wls_sina_weather_activate_retain_user
where dt between '20151225' and '20170205' and pt in ('1','5010')  -- 限定日期范围
and pv in ('3.809','3.819','3.829','3.839','3.909','3.929','3.939','5.009','5.039','5.059','5.109','5.159','5.209','5.309')  --限定版本
and pid in ('s6001','s6008','s6000','s2007','s2012','s2010','s3016','s6005','s7340','s3015','p372','s2009','s3017','free','s6004','s6007','s2004','s6010','s6003','s3011','p303','p331','p400','s3014','s3013','s7261','p306','s2011','s6006','p858','s4000','s3012','s7021','s6002','p888')  -- 限定渠道
and pt_type = 'activate' and regexp_replace(last_date,'-','') = dt  -- 2/1 2/1 2/1 yes =>2/2 2/1 2/1 no ==> 2/3 2/1 2/1 no, 如果这里不做限制, 到时候算last_date=first_date 可能会有5个记录, 那么这样就会多加了不少了.
and first_date >= '2015-12-25'  -- first_date必须在指定日期12/25后
and (last_date = first_date or last_date = date_add(first_date,1) or last_date = date_add(first_date,6))  -- 限定满足新用户, 次日, 七日三个之一
group by first_date, pid, pv">cxl_08.txt  -- 对first_date, 渠道, 版本做去重, 准备用于sum, 可以查询上面Group By Customer的例子

--通过first_date, pid, pv确定一个独特的来自某个渠道, 版本, 某天的新增用户,以及它之后的表现

extra: 补充解释

对regexp那行代码含义的解释:

20151225(dt) 天气通    %2BGSN%3A80869018(uid)  2015-12-25(last_date)   2015-12-25(first_date)  15:44:15    3.409(ver)  P2866(source)   重庆  电信  activate(type)  #第一次启动
20151226 天气通    %2BGSN%3A80869018   2015-12-25  2015-12-25  15:44:15    3.409   P2866   重庆  电信  activate
20151227 天气通    %2BGSN%3A80869018   2015-12-25  2015-12-25  15:44:15    3.409   P2866   重庆  电信  activate
20151228 天气通    %2BGSN%3A80869018   2015-12-25  2015-12-25  15:44:15    3.409   P2866   重庆  电信  activate
20151229 天气通    %2BGSN%3A80869018   2015-12-29  2015-12-25  15:44:15    3.409   P2866   重庆  电信  activate  #第二次启动

解释: 如果group by first_date, pv, pid
那么就是如上5条记录落入对2015-12-25, 3.409, P2866这个group by形成的独特组合(我们称作该组合, 其在最后的excel结果中是一条行记录),
因此, sum(case when last_date = first_date then 1 else 0 end) as newuser这个语句, 对该组合来说, %2BGSN%3A80869018这个用户会给这个值贡献了4, 而不是正常情况该有的1(因为他只是一个新增用户).
所以, 我们必须加上regexp_replace(last_date,'-','') = dt这个限定条件

相关文章

  • 数据分析工作案例: 用户留存问题

    互联网数据分析中总是会遇到产品的留存率问题, 本案例就是一个实际工作中遇到的需求. 一. demand 业务需求 ...

  • 用户留存案例分析

    本文介绍本案例发生在某一次新版本上线后,随着时间的推移用户留存率逐日下降。故需要从数据角度分析下降原因。 每家互联...

  • 用数据驱动产品和运营 之 数据分析方法

    数据分析方法 多维事件分析 漏斗分析 留存分析 行为序列分析 A/B测试 用户分群 (一)数据分析——多维事件分析...

  • 怎么提高活跃度和留存?(用户增长篇)

    “用户增长中,激活和留存的指标关乎产品存亡。本文将介绍 激活 和 留存 中, 如何分析数据、拆解问题,和一些提高转...

  • 用户留存学习笔记part 6

    【分析】微信读书如何提升用户留存 案例学习 第一部分 1 新用户留存 首次登录采取的策略 福利:免费赠书+赠送书...

  • 三种数据分析方法

    首先,常见的数据分析方法有9种:对比分析,多维度拆解分析,漏斗观察,分布分析,用户留存分析,用户画像,归因查找,路...

  • 蝌蚪互娱|用户留存分析指南(三):如何建立用户留存策略

    导读:上一篇我们讲了用户留存分析的三个阶段,这篇我们来分析如何建立用户留存策略,提高用户的留存率。 一、用户留存的...

  • 用户留存分析指南(三):如何建立用户留存策略

    导读:上一篇我们讲了用户留存分析的三个阶段,这篇我们来分析如何建立用户留存策略,提高用户的留存率。 一、用户留存的...

  • 建立【界面——用户流向——用户留存——用户停留时间】数据结构图 动态分析几个关键性数据,【展现数】——【PV UV...

  • 数据驱动产品之“漏斗分析”

    产品迭代中常见的数据方法有 事件分析、漏斗分析、留存分析、用户路径等,而这些分析方法也大都集成在数据分析工具中(g...

网友评论

    本文标题:数据分析工作案例: 用户留存问题

    本文链接:https://www.haomeiwen.com/subject/qravittx.html