背景
这其实是recsys 2018的一个tutorial,关于推荐系统评价,从定量和定性的混合角度。PPT地址在recsys2018-evaluation-tutorial
定性
采访Interviews
- 为什么需要采访?
因为如果我们不去问用户他们为什么高兴,那我们就需要进行假设。 - 我们怎么认为用户对一个每周发现的音乐推荐满意?
- 听的时长:有一些用户只是会去seek&save,这些人时长短;有些人会转到音乐家列表进行深度听
- 下周复听:有些用户只是习惯性打开;有些用户对于Discover只是看心情;算法是迭代的,这周算法差但是期待下周算法好
- 具体的采访内容:
- 这个领域的习惯(比如看视频的习惯)
- 这个领域的偏好(比如看视频的偏好)
- 对系统的态度
- 为什么要用这个系统(为什么要来西瓜看视频)
- 用这个系统的习惯(在西瓜看视频主要是看啥)
- 这个系统体验好的地方
- 这个系统体验差的地方
- 深度的习惯挖掘
- 具体的采访对象:
- 高频 9-10/10 wks
- 中频 5-8/10 wks
- 低频 1-4/10 wks
- 混合上年龄、性别、地域
- 局限性
- 泛化性比较差
- 采访者的需求效应,有可能会去哄着被采访者
- 不是很自然
- 被采访者的偏差
调查问卷Surveys
- 为什么要调查?
- 了解用户的基准和敏感程度
- 探索用户的需求
- 创建一份标注样本
- 调查的最佳实践
- 对你的问题的答案进行去偏:避免隐式的假设;选项的标量可能会影响答案(别包括抽象的值,选项应该有一些有意义的答案
- 像你的调查者一样去设计:问题和回答应该要反应他们的体验;用他们可能会用的词来描述
- 对开放性问题要小心
- 局限性
- 不自然
- 回应者本身存在偏差
- 个体可能有不同的打分偏好
定量
- Attention
用户是否关注到了推荐系统,比如page load、page scroll、cursor-tracking、touch gestures、eye-tracking - Interaction
用户是否与推荐系统进行了交互,比如track stream、examine、bookmark/save/delete,reference等等 - Satisfaction
用户是否满意,比如completed playlist - Retention
用户是否觉得推荐系统是个很好用的工具,比如return to recsys
网友评论