1 测试和常用指标
- 测试
软件工程测试:单元测试,回归测试,压力测试
离线模拟测试:AUC,TopK准确率
在线对照实验:在线AB测试
人工校验回访:人工介入测试,发现极端案例 - 检测指标 - 有多好
- 深度类
评分准确度:RMSE,排序能力:AUC,分类准确率:TopK准确率和召回率
商业化:比例类:点击率,转换率,漏斗模型;绝对值类:时长,GMV - 广度类
覆盖率:推荐结果大于c个,分为UV和PV
失效率:推荐结果为0个,分为UV失效率和PV失效率
新颖性:标签粒度,主题粒度,分类粒度,在每个粒度评价用户没见过的物品比例
更新率:推荐列表不同物品的比例,在固定的时间周期里面
- 深度类
- 检测指标 - 好多久
- 个性化:取一天的日志,看用户推荐列表的平均相似度
- 基尼系数:衡量马太效应,用基尼系数计算
- 多样性:用类别交叉熵计算
2 推荐系统的安全
- 攻击方式
制造相似用户,然后打高分或者打低分
目标物品,助攻物品,陪跑物品
热门攻击(让目标和热门物品扯上关系),分段攻击(选找出类似群体肯定喜欢的物品,然后把目标物品和喜欢的物品扯上关系) - 防护方式
平台级:提高注册成本,教育用户多评价有真实反馈
数据级:模型识别真假用户
算法级:用户质量(新老用户),用户投票权重,采用多种模型推荐算法融合推荐
网友评论