一、策略类项目的流程

二、为什么要做多轮评估?

三、评估类型

四、策略质量评估
策略质量评估用来说明策略本身的质量
输出结论:该策略的召回率和准确率
1)召回率=希望被覆盖的案例中,策略实际覆盖到的案例/理想态下希望策略覆盖到的案例
代表策略对问题的解决程度
2)准确率=策略覆盖的案例中,真正希望被覆盖到的/策略覆盖的所有案例
代表策略有没有带来其他伤害
(我们希望两者越高越好!)
例子:

以上例子中,
召回率=6/10=60%
准确率=6/9=66.7%
策略质量评估方法:

案例:性别识别策略
在所有用户中随机抽取1k人,通过策略识别,其中368个人为男生。对1k个人进行人工标注,共标注385个男生、78个无法识别,剩余女生。其中策略识别为男生的对象中有314个真的为男生、22个是人工标注的无法识别,策略识别成女生的里面还有71个是男生,那么:
召回率=识别出的男生314/所有男生385=81.6%
准确率=(真正的男生314+无法识别22)/策略识别的所有男生368=91.3%
(注意这里的无法识别问题)
五、Diff评估
在一个复杂的策略体系中,各种策略会相互作用,共同影响最终效果,比如搜索、推荐。
在迭代其中某条策略时,除了评估策略本身的召回和准确,还要关注在策略变化前后,用户角度直接感受到的产品效果变化是怎样的。
输出结论:diff影响面、good:same:bad
1)diff影响面:策略调整后,用户感知发生变化的比例,通常小于策略影响面
2)good:same:bad(简称g:s:b):随机抽样有变化的case,站在用户体验角度评估效果变好了、无变化、还是变差了。
例子:

Diff评估方法:

案例:性别识别策略
在所有用户中随机抽取1k个人,新旧策略分别识别后,有210个结果不同。98个新策略男、旧策略女,112个新策略女、旧策略男。
对这210个结果进行人工标注,其中135个是新策略对、旧策略错,24个新策略错、旧策略对,还有51个人工判断不出性别,认为新旧策略识别是男是女都可以、新旧变化为same,那么:
diff影响面:新旧结果不同的210/所有样本1000=21%
G:S:B=135:51:24
六、策略评估三步方法论
策略PM通用方法论

第一步:基于理想态,找到问题
策略召回率理想是100%,目前只有60%,剩余40%没被策略召回
策略diff评估中占比10%的bad case
第二步:汇总和抽象问题,提出解决问题思路or方向
40%未召回case主要是3类问题,分别应该通过xxx思路解决
目前占比10%的bad case主要是xxx原因,需要解决
第三步:给出结论
问题依然很严重,需要继续优化or问题可接受、策略可以上线了
老问题:以投入产出比为主要考虑因素,通常以项目预期为终点
新问题:通常容忍度较低。以pm认为的不可忍受的体验为标准
七、简单策略评估循环的案例



项目目标:准确识别出图中的蓝色点
第一轮评估:
第一步:基于理想态,找到问题
绿圈里的蓝点没有被曲线覆盖
错误覆盖了红圈里的两个点
第二步:汇总和抽象问题,提出解决问题or思路
1、2的点在曲线上方,3在下方,至少是2次函数
1和2的斜率不一样,可能是3次或更复杂函数
第三步:给出结论
目前方案只能勉强覆盖三个点、召回率不到30%;
准确率也一般,召回了两个绿点,准确率只有60%。
还需要继续优化。


第二轮评估:
第一步:基于理想态,找到问题
圈2里还有一个点没有召回
第二步:汇总和抽象问题,提出解决问题or思路
之前提过的呀,1和2的斜率不一样,可能是3次或更复杂函数,用2次函数搞不定的
第三步:给出结论
其实目前召回率已经90%+了,准确也非常好。可以上线了。
不过如果成本可控的话,再努力下最后一个点?
第三轮评估:

八、总结
开发过程中的评估是策略PM的必经之路,是PM和RD通过深度配合在黑暗中找到道路的重要环节。
召回率、准确率、diff影响面、g:s:b四个指标是策略评估的主心骨,所有评估都是围绕着他们发现和抽象问题的过程。
以上为三节课策略产品课程个人学习笔记。
网友评论