一.项目目的及数据来源
使用淘宝数据分析电商用户行为,数据来源 数据集-阿里云天池,分析工具mysql+navicat+excel。
代码链接:https://gitee.com/wang-gaopeng/taobao-user-behavior-analysis/tree/master/
二.数据解析
数据集有以下字段
user_id 用户编号 整形 , item_id 商品编号 整形 , behavior_type 用户行为 整形 1表示pv指在网站的页面浏览量或点击量,
2表示收藏,3表示添加购物车,4表示支付), user_geohash 用户地理位置 字符串,item_category 商品种类 整形,time 日期 字符串类型。
三.分析维度
第一个维度:用户购物情况整体分析
以PV、UV、平均访问量、跳失率等指标,分析用户最活跃的日期及活跃时段,了解用户行为习惯
第二个维度:商品购买情况分析
从成交量、人均购买次数、复购率等指标,探索用户对商品的购买偏好,了解商品的销售规律
第三个维度:用户行为转化漏斗分析
从收藏转化率、购物车转化率、成交转化率,对用户行为从浏览到购买进行漏斗分析
第四个维度:参照RFM模型,对用户进行分类,找出有价值的用户
第五个维度:用户留存分析,通过次日留存率,7日留存率,月留存率来分析用户短期和长期的粘性。
四.数据分析
1.数据清洗
原始数据time 列包括日期及小时,使用excel分列为time和hour两列。
数据库采用MYSQL,通过Navicat导入数据
create table user(user_id int not null,item_id bigint,behavior_type int not null,user_geohash varchar(50),item_category int,time varchar(20),hour int);
user_geohash地理位置列数据有缺失值,但对我们的分析影响不大,因此可以不处理。
2.用户购物情况整体分析
2.1 pv(浏览量)
总体的pv值为987911。
select count(behavior_type) as 'pv' from user where behavior_type=1;
2.2uv(独立页面访问量)
总体的uv值为8477
select count(distinct user_id) uv from user;
网友评论