分组流量实验经常遇到的一个问题是
当流量转全后,很多统计值或者模型样本的分布会受到转全的影响而发生变化。
如果我们在实验期间使用全局的数据进行统计以及训练。则实验后其分布的变化可能会造成不可预期的结果。
其结果可能会比较缓慢地反应到最终我们优化的指标之上。(可能更好,也可能更差)
鉴于这个问题
1、最naive且直接的解决方式是:仅使用实验流量的数据进行统计和训练,这样能尽可能地在实验期间捕捉其分布的变化。
缺点是鉴于流量的数据量可能较小,会造成模型训练比较困难,以及实验周期较长(需要一定周期内的样本),或者统计值置信度下降。
2、如果不想接受方法1的缺点,则需要尽可能地减少可以预见的一些分布变化,特别是统计值的使用中,可能会受到非常明显的干扰。其次是很多系数超参数,都通过实验效果来优化,当实验环境变化时,其需要一些自适应的调整。但是这里的paradox在于,系数通常通过实验获得,而实验转全后,环境变化可能最优的参数又会发生变化。
TODO,思路,RL可能可以帮助我们优化。
网友评论