美文网首页
推荐系统入门实践(3)召回之youtube-dnn

推荐系统入门实践(3)召回之youtube-dnn

作者: 夏安的算法学前班 | 来源:发表于2020-04-30 20:48 被阅读0次

    DNN召回

    这里指的是youtube的Deep Neural Network for YouTube Recommendation论文里提到的模型,论文里同时提出了召回和排序,这里先只介绍召回。大厂毕竟还是nb啊,看起来其实挺简单,为什么别人提不出来呢?细节满满,意味着坑也满满。1.论文链接 2.简书上的靠谱分享 3.我之前在简书上的简单一提

    直接上图:

    image.png

    模型很简单,先看输入。左下蓝色的是item embedding,是用item的id从random初始化的emb_matrix里look_up出来的,一个用户(或者说一条样本更准确些)的若干个item平均一下,进入dnn;
    绿色的是用户搜索的query,跟item本质上没什么不同,也是平均一下进入dnn;
    再其他concat到一起的是各种各样的特征,这里主要是用户的特征。想一下为什么不用item的特征?因为item这么多,你怎么知道加哪个item的特征啊!当然也许是有什么巧妙特征的,只是实践里没这么麻烦过。有了输入,经过三层网络,就是输出,把这个模型当做是超大规模的分类模型,每一个item可以理解为一个类。


    问题来了。

    输入的emb直接做均值合理吗?
    我隐约记得这是论文里指出的,好像是尝试过add/concat效果都不如average。在实践中还是用了加权平均(但没有跟直接平均对照试验过,每次改动的地方都不止一个),权重的设计思想就是跟(观看后的)天数成反比、跟观看完成率成正比,公式是:

     weight_avg_watch = tf.exp(-self.batch_watchDays/7.0) * self.batch_watchProp 
    

    那求均值的视频/query个数要固定吗?
    其实没必要固定。在实践中,为了简单起见,训练的时候样本都是固定长度的,而推理(后面会再说一下)的时候就是不固定长度的了,有多少算多少(但设置max),然后求均值。

    有梯度消失或梯度爆炸的问题吗?
    这是有的,一看三层relu就知道有问题了,实践中改成了leakyrelu,有改善。其他的方法比如clip、BN、lr decay等都可以尝试。

    对时间怎么建模?example age是什么?
    example age就是target item在“当前”的年龄( the age of the training example ),没有那么多弯弯绕,因为youtube用户对新视频更加偏好,即使相关性不太好也可以.

    超大规模的分类,计算资源够用吗?
    超大规模的分类,实践中通常是几百万,计算资源开销太大,光算loss都要半年,所以不能这样干。我们用采样的方式构造负样本,TensorFlow牛逼,tf.nn.log_uniform_candidate_sampler这个函数的思想就是给定正样本,在剩下的样本里,越是靠前的越容易被抽出来当负样本,这叫按照 log-uniform (Zipfian) 分布采样。一般采五六百吧。注:vocab是按照频率排的,因此越靠前,就是越热门的item。vocab怎么得到的?可以在产出样本的时候顺便产出。贴一段代码:

    import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}
    ...
    ...
        val watchDF = sqlContext.createDataFrame(sampleWatch).toDF("uid", "watch")
        val watchCvModel: CountVectorizerModel = new CountVectorizer()
          .setInputCol("watch")
          .setOutputCol("watch_fea")
          .setVocabSize(watchVocabSize)
          .setMinDF(watchVocabMinFreq)
          .fit(watchDF)
        val watchVocab = watchCvModel.vocabulary.zipWithIndex
        val formatWatchVocab = watchVocab.map(x => s"${x._1}\t${x._2}")
        sc.parallelize(formatWatchVocab, 1).saveAsTextFile(outputWatchVocab)
    

    那直接用展示未点击的来做负样本不好吗?
    不好。一个是麻烦。另一个是,展示未点击的,其实是排序模型认为很好的选项了,直接用label=0来打击它并不好,一般用户对它是有一定的兴趣的。还有就是,要predicting future watch,而不是predicting held-out watch,不要偷窥未来。

    要如何构造样本?上面两段说明了负样本如何选择,其实就是为了在这里说样本如何选择。负样本是采样得到的,那构造样本的时候只要记录input和正样本就好了。正样本是什么?点击的?观看的?还是观看完成度高于某个值的?这里需要根据业务来定,比如长视频,甚至还需要你将用户分段的观看累计起来。input是什么?我们有了用户的观看或者行为历史,既可以一个用户产出多条样本,也可以一个用户产出一条样本,这两个选项又分别有多种不同的方法。比如,一个用户的正向行为list是abcdefg,那我的样本可以是(abcd->e,abcd->f,abcd->g,bcde->f,bcde->g)。这个选择比较自由,也没有对比过优劣,应该是差不多的。

    用户特征选什么比较好?
    用户特征使用静态特征(年龄、性别、居住地...)比较好,因为统计特征本质上只是区分了用户是否活跃,这不是我们想要的。或者其他各种途径得到的用户emb特征,也可以加进去试试。

    有什么其他的改进吗?

    • 例如加入attention,这个实践中效果有限,也有分享说效果很好,应该是业务不同导致的。
    • 例如将item的某些属性(uploader、tag等)与item的emb concat到一起,再计算平均值。这其实相当于又加了若干个query。
    • 使用LSTM替换average是否有效?基本没效果。

    网络结构的代码可见 youtube-dnn-recall-structure.py


    问题又来了。

    上面一节说的主要是训练。这一节主要说线上服务。

    那我要怎么提供线上服务啊?

    • 这其实还有一个内部隐含的问题,就是谁是item的emb,谁是user的emb?我们看模型结构示意图,觉得item emb不是输入的吗?其实不是。网络上有人将输入的emb当做item,也取得了不错的效果,这是有可能的,但,确实不太对。说结论,user的emb是最后一层隐藏层h(激活后),item的emb就是这个隐藏层到softmax之前的权重矩阵W。为什么呢?因为y = Wh + b,如此才能显示出W和h之间的联系(这里其实有个问题,b存在的意义是什么?实践中前人的代码里写了b,但我觉得可能不需要b吧,只是后来没做实验了。)。另外,input的emb其实可以用其他方式得到的emb来初始化,例如item2vec的emb;并且,input的emb可以与W共享,同时更新,这样就不用矛盾选择哪个emb了。
    • 线上召回可以有两种,一是II召回,也就是用item emb计算相似度,得到倒排,进而召回,这里可以看出我们在上一节的优化中concat了uploader等属性的好处,那就是同一个up的item之间天然的具有一定相似度;二是UI召回,也就是,将user存到couchbase/Aerospike里,将item用faiss训练为一个index,然后线上根据user查找相近的item。

    加一个问题,UI召回里的相似度怎么算?为什么?II呢?
    UI召回的相似度是用内积的,而不是余弦,这是因为网络训练的时候就是内积计算。II召回的相似度,内积、余弦、欧氏距离,都可以尝试,可以根据实际情况来决定,我在实践中是都用过,效果差不多,都还不错。但从理解上来说,余弦可能更科学一点,毕竟是同一空间?

    再加一个问题,softmax的W要不要归一化?hidden要不要归一化?也就是说,user和item的emb需要归一化吗?从上文的理解来说,都行,这个意思是,你在训练的时候怎么做的,在用的时候就怎么做。如果你网络里归一了,使用的时候就归一,如果没有,那就不用,不然会起反效果(试验过的)。

    插一个问题,faiss训练index的具体原理?faiss是一种高效的k-means聚类实现,facebook 牛逼(破音)!具体的我也没太了解过。安装可以看久远的过去,使用可以看简书大佬的分享。贴几句使用示例吧:

        index = faiss.index_factory(dim, factory)
        index.nprobe = nprobe
        index.train(embedding_all)
        index.add_with_ids(embedding_all, fid_all)
        faiss.write_index(index, out_index)
    

    好了,现在知道item的emb要训练index索引了,当然这个item emb在训练结束时候可以存下来。user的emb要怎么弄?一种方法是python来load模型然后推理一次,一种方法是手写前向然后推理。python的优点是简单,手写一般是用scala/java,优点是可以为后续的实时化做准备。贴一小段代码:

    import breeze.linalg.{DenseMatrix, DenseVector, normalize}
    ...
    ...
      def feedForward(x: DenseVector[Double],
                      w: Array[DenseMatrix[Double]],
                      b: Array[DenseVector[Double]]): DenseVector[Double] = {
        val layer0 = w(0) * x + b(0)
        val relu0 = layer0.map { e => if (e > 0) e else 0.0 }
        val layer1 = w(1) * relu0 + b(1)
        val relu1 = layer1.map { e => if (e > 0) e else 0.0 }
        val layer2 = w(2) * relu1 + b(2)
        val relu2 = layer2.map { e => if (e > 0) e else 0.2 * e }
        relu2
      }
    

    dnn召回的效果指标都挺不错,展示占比也不低,是主要的召回源之一。实践中,user的emb存到cb,通常只存最新的,而item的index需要训练新旧两个版本,避免cb没刷完时user找不到item。

    相关文章

      网友评论

          本文标题:推荐系统入门实践(3)召回之youtube-dnn

          本文链接:https://www.haomeiwen.com/subject/hkotghtx.html