需求:
“每人可以根据自己的指标对应的特征有效性分析,提取出推荐给产品线在列表页中展示的一些重要特征,引导用户对排序结果的选择、形成正向反馈”
答复:
对于页面停留时间,建议 在列表页
的图片上添加 图片个数(在详情页中图片上有图片个数的显示,如 2/10)
详情页页面停留时间,与文档内容的一致性分析:
特征有效性分析,截图:共58个特征,截取前30个
Paste_Image.png指标是页面停留时间:
(是列表页点击进入后的,与详情页的页面停留时间,本意应该与列表页的元素无关)
页面停留时间,指标处理并不是回归,而是分类,是根据中位数进行二分。
特征有效性靠前特征:图片个数;价格;
室; 装修;卫; 厅;信息来源; 房子属性;楼层;地铁线;区域
特征有效性与文档一致性分析:
越靠上越“重要”——耗时越多,下边的耗时少。耗时第一位的是图片,图片多的耗时在中位数之上,图片少的耗时在中位数之下。
厅室卫 在特征有效性分析中出现多次,累计权重第一。用户需求与之匹配,则耗时在中位数之上,否则在中位数之下。
其次是价格范围,价格合适则停留时间高于中位数,反之在中位数之下。
再次是装修。
最后是,房源来源,title length;地铁;楼层;区域;房龄;面积;结构
注意:朝向,总楼层,在特征有效性分析中,排名**个30位之后。
以上特征分析的结果,与详情页的元素基本匹配,基本符合逻辑。
Paste_Image.png Paste_Image.png思考:
根据指标,负样本应该不包括未点击的样本。从指标含义和指标处理方式看(页面停留时间+中位数二分法),
正负样本不应该含有列表页的影响因素,即未点击的样本不应该列入训练。
而在模型组合时,应该是ctr模型串联页面停留时间模型。——目前,页面停留时间是单独使用,所以负样本包含未点击的样本。
分析:
由于模型考虑了列表页因素,所以对特征有效性与列表页元素进行对应分析,看是否符合逻辑:
特征有效性中重要特征:图片个数;价格; 室; 装修;卫; 厅;信息来源; 房子属性;楼层;地铁线;区域
列表页用户可见重要特征:价格; 室;厅,区域(在标签栏中,有随机出现的标签,如:房屋属性;楼层;地铁;)
结论:
基本一致。没有显著不一致的情况。
Paste_Image.png Paste_Image.png**重点重述:
**
从指标含义和指标处理方式看(页面停留时间+中位数二分法),
正负样本不应该含有列表页的影响因素,即未点击的样本不应该列入训练。
在模型组合时,应该是ctr模型串联页面停留时间模型。——目前,页面停留时间是单独使用,所以负样本包含未点击的样本。
网友评论