分用户群体的AUC,在用户产品的优化过程中,也是一个较为隐藏且有实际关注意义的指标。
当用户群有较大差异时,例如少量用户贡献了大量的展现点击,这种状况非常常见,则通常在模型在AUC提升的过程中,对贡献了大量信号的活跃用户会有更强的预估能力,而将低活用户的点展信息拿出来,单独计算其AUC可能并未提升,甚至可能有所下降。这样产品短期得到了更好的数据指标,而对其长期的发展可能存在更大的隐患。
解决方法,针对信号量过少的用户,做一些针对性的策略,或者在策略上进行调权。(比如优质内容提权,后验ctr内容提权,以变相消除预估模型不准带来的随机性)
还有时候,用户id的embedding作为特征,信号过于强烈,而这部分信号主要作用还是用于记忆。其中记住低频用户点击率较低这一特性,在某些场景对效果并没有实际提升作用(比如用户feed推荐),而在广告点击的一些场景,会有明确用处(广告点击率直接关系到出价的预估)【并不代表此特征无用,因为uid的emb同样能记住别的喜好,例如,某人就是喜欢看篮球】
【从经验看来,有时候auc的提升不大,但是效果也可能有很不错的提升,分用户,分低高频率用户的auc可能可以带来解释。在用abacus两段式embedding训练的方式后,一些场景的效果有超越auc提升水平的明显效果提升,说明在该模型中,用户的embedding可以有较强的泛化能力,而非简单的记忆能力】
【在实际使用中,对这部分用户单独优化可以作为一个方案。】
网友评论