首先,统计页面停留时间
然后,将页面停留时间 做回归或者分类(目前,使用分类模型)
注:页面停留时间是连续值,但可以中位数,进行二值化。以A用户为例,访问5个页面页面停留时间分别为1、2、3、4、5,那么用中位数3进行,可以二值化为0,0,1,1,1,进而作为逻辑回归模型的二分类label。
扩展:也可以用softmax做多分类;或者用回归模型。
1.统计页面停留时间
核心计算方法:
- 过滤二手房类目的日志
- 由于app日志中没有session,需要为日志添加session
session计算方法:- 同一个用户一个新的启动行为算作一个session开始,
2.同一用户超过5分钟没有行为算作一个session开始
- 同一个用户一个新的启动行为算作一个session开始,
- 在相同session内,将用户行为序列中满足连续三种事件流漏斗的数据找出来。
事件漏斗分别是: 1.列表页上发生详情页点击(list item)-> 2. 详情页 ->3.离开详情页(非detail事件) - 提取用户该行为序列中imei,帖子id,gtid, timestamp,然后利用事件3时间-事件1时间 计算停留时间
输出:
Paste_Image.png提取字段:
以imei作为用户id: 000**********d5689dbcc36
以params中参数作为 docid
以qid /gtid 做唯一单词搜索的唯一标记
以list item的时间 timestamp 1476572224134 为 详情页进入时间
注:日志比较混乱,还处在6年前的淘宝的日志阶段——不过,还好,后来者有经验可借鉴,正在全速整理中。
从数据完整性、准确性统计:
- 后端的click 日志与 用户行为日志,匹配发现,用户行为日志有缺失,缺失率为11% 左右
- 用户最后一个页面的,页面停留时间 无法统计
核心:详情页退出的时间方式;App端session切割方式
方案:
App端session切割方式:以5分钟为界
详情页退出的时间方式:由于无法穷举所有非详情页的tag( list item为tag),所以,分析日志,以 非detail 开头的tag为准,作为详情页结束时间,此方式可能不准确。
网友评论