推荐系统入门实践（3）召回之youtube-dnn

作者: 夏安的算法学前班 | 来源:发表于2020-04-30 20:48 被阅读0次

推荐系统入门实践（3）召回之youtube-dnn
召回
推荐系统入门实践（2）召回之cf、cs
推荐召回模型youtube-dnn
推荐系统实践
推荐系统入门实践（5）召回之node2vec
推荐系统入门实践（4）召回之item2vec
【Django】入门实践指南之系统设计|第1篇
【Django】入门实践指南之环境搭建|第0篇
推荐系统精品文章

DNN召回

这里指的是youtube的Deep Neural Network for YouTube Recommendation论文里提到的模型，论文里同时提出了召回和排序，这里先只介绍召回。大厂毕竟还是nb啊，看起来其实挺简单，为什么别人提不出来呢？细节满满，意味着坑也满满。1.论文链接 2.简书上的靠谱分享 3.我之前在简书上的简单一提

直接上图：

image.png

模型很简单，先看输入。左下蓝色的是item embedding，是用item的id从random初始化的emb_matrix里look_up出来的，一个用户（或者说一条样本更准确些）的若干个item平均一下，进入dnn；
绿色的是用户搜索的query，跟item本质上没什么不同，也是平均一下进入dnn；
再其他concat到一起的是各种各样的特征，这里主要是用户的特征。想一下为什么不用item的特征？因为item这么多，你怎么知道加哪个item的特征啊！当然也许是有什么巧妙特征的，只是实践里没这么麻烦过。有了输入，经过三层网络，就是输出，把这个模型当做是超大规模的分类模型，每一个item可以理解为一个类。

问题来了。

输入的emb直接做均值合理吗？
我隐约记得这是论文里指出的，好像是尝试过add/concat效果都不如average。在实践中还是用了加权平均（但没有跟直接平均对照试验过，每次改动的地方都不止一个），权重的设计思想就是跟（观看后的）天数成反比、跟观看完成率成正比，公式是：

 weight_avg_watch = tf.exp(-self.batch_watchDays/7.0) * self.batch_watchProp

那求均值的视频/query个数要固定吗？
其实没必要固定。在实践中，为了简单起见，训练的时候样本都是固定长度的，而推理（后面会再说一下）的时候就是不固定长度的了，有多少算多少（但设置max），然后求均值。

有梯度消失或梯度爆炸的问题吗？
这是有的，一看三层relu就知道有问题了，实践中改成了leakyrelu，有改善。其他的方法比如clip、BN、lr decay等都可以尝试。

对时间怎么建模？example age是什么？
example age就是target item在“当前”的年龄（ the age of the training example ），没有那么多弯弯绕，因为youtube用户对新视频更加偏好，即使相关性不太好也可以.

超大规模的分类，计算资源够用吗？
超大规模的分类，实践中通常是几百万，计算资源开销太大，光算loss都要半年，所以不能这样干。我们用采样的方式构造负样本，TensorFlow牛逼，tf.nn.log_uniform_candidate_sampler这个函数的思想就是给定正样本，在剩下的样本里，越是靠前的越容易被抽出来当负样本，这叫按照 log-uniform (Zipfian) 分布采样。一般采五六百吧。注：vocab是按照频率排的，因此越靠前，就是越热门的item。vocab怎么得到的？可以在产出样本的时候顺便产出。贴一段代码：

import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}
...
...
    val watchDF = sqlContext.createDataFrame(sampleWatch).toDF("uid", "watch")
    val watchCvModel: CountVectorizerModel = new CountVectorizer()
      .setInputCol("watch")
      .setOutputCol("watch_fea")
      .setVocabSize(watchVocabSize)
      .setMinDF(watchVocabMinFreq)
      .fit(watchDF)
    val watchVocab = watchCvModel.vocabulary.zipWithIndex
    val formatWatchVocab = watchVocab.map(x => s"${x._1}\t${x._2}")
    sc.parallelize(formatWatchVocab, 1).saveAsTextFile(outputWatchVocab)

那直接用展示未点击的来做负样本不好吗？
不好。一个是麻烦。另一个是，展示未点击的，其实是排序模型认为很好的选项了，直接用label=0来打击它并不好，一般用户对它是有一定的兴趣的。还有就是，要predicting future watch，而不是predicting held-out watch，不要偷窥未来。

要如何构造样本？上面两段说明了负样本如何选择，其实就是为了在这里说样本如何选择。负样本是采样得到的，那构造样本的时候只要记录input和正样本就好了。正样本是什么？点击的？观看的？还是观看完成度高于某个值的？这里需要根据业务来定，比如长视频，甚至还需要你将用户分段的观看累计起来。input是什么？我们有了用户的观看或者行为历史，既可以一个用户产出多条样本，也可以一个用户产出一条样本，这两个选项又分别有多种不同的方法。比如，一个用户的正向行为list是abcdefg，那我的样本可以是(abcd->e,abcd->f,abcd->g,bcde->f,bcde->g)。这个选择比较自由，也没有对比过优劣，应该是差不多的。

用户特征选什么比较好？
用户特征使用静态特征（年龄、性别、居住地...）比较好，因为统计特征本质上只是区分了用户是否活跃，这不是我们想要的。或者其他各种途径得到的用户emb特征，也可以加进去试试。

有什么其他的改进吗？

例如加入attention，这个实践中效果有限，也有分享说效果很好，应该是业务不同导致的。
例如将item的某些属性（uploader、tag等）与item的emb concat到一起，再计算平均值。这其实相当于又加了若干个query。
使用LSTM替换average是否有效？基本没效果。

网络结构的代码可见 youtube-dnn-recall-structure.py

问题又来了。

上面一节说的主要是训练。这一节主要说线上服务。

那我要怎么提供线上服务啊？

这其实还有一个内部隐含的问题，就是谁是item的emb，谁是user的emb？我们看模型结构示意图，觉得item emb不是输入的吗？其实不是。网络上有人将输入的emb当做item，也取得了不错的效果，这是有可能的，但，确实不太对。说结论，user的emb是最后一层隐藏层h（激活后），item的emb就是这个隐藏层到softmax之前的权重矩阵W。为什么呢？因为y = Wh + b，如此才能显示出W和h之间的联系（这里其实有个问题，b存在的意义是什么？实践中前人的代码里写了b，但我觉得可能不需要b吧，只是后来没做实验了。）。另外，input的emb其实可以用其他方式得到的emb来初始化，例如item2vec的emb；并且，input的emb可以与W共享，同时更新，这样就不用矛盾选择哪个emb了。
线上召回可以有两种，一是II召回，也就是用item emb计算相似度，得到倒排，进而召回，这里可以看出我们在上一节的优化中concat了uploader等属性的好处，那就是同一个up的item之间天然的具有一定相似度；二是UI召回，也就是，将user存到couchbase/Aerospike里，将item用faiss训练为一个index，然后线上根据user查找相近的item。

加一个问题，UI召回里的相似度怎么算？为什么？II呢？
UI召回的相似度是用内积的，而不是余弦，这是因为网络训练的时候就是内积计算。II召回的相似度，内积、余弦、欧氏距离，都可以尝试，可以根据实际情况来决定，我在实践中是都用过，效果差不多，都还不错。但从理解上来说，余弦可能更科学一点，毕竟是同一空间？

再加一个问题，softmax的W要不要归一化？hidden要不要归一化？也就是说，user和item的emb需要归一化吗？从上文的理解来说，都行，这个意思是，你在训练的时候怎么做的，在用的时候就怎么做。如果你网络里归一了，使用的时候就归一，如果没有，那就不用，不然会起反效果（试验过的）。

插一个问题，faiss训练index的具体原理？faiss是一种高效的k-means聚类实现，facebook 牛逼（破音）！具体的我也没太了解过。安装可以看久远的过去，使用可以看简书大佬的分享。贴几句使用示例吧：

    index = faiss.index_factory(dim, factory)
    index.nprobe = nprobe
    index.train(embedding_all)
    index.add_with_ids(embedding_all, fid_all)
    faiss.write_index(index, out_index)

好了，现在知道item的emb要训练index索引了，当然这个item emb在训练结束时候可以存下来。user的emb要怎么弄？一种方法是python来load模型然后推理一次，一种方法是手写前向然后推理。python的优点是简单，手写一般是用scala/java，优点是可以为后续的实时化做准备。贴一小段代码：

import breeze.linalg.{DenseMatrix, DenseVector, normalize}
...
...
  def feedForward(x: DenseVector[Double],
                  w: Array[DenseMatrix[Double]],
                  b: Array[DenseVector[Double]]): DenseVector[Double] = {
    val layer0 = w(0) * x + b(0)
    val relu0 = layer0.map { e => if (e > 0) e else 0.0 }
    val layer1 = w(1) * relu0 + b(1)
    val relu1 = layer1.map { e => if (e > 0) e else 0.0 }
    val layer2 = w(2) * relu1 + b(2)
    val relu2 = layer2.map { e => if (e > 0) e else 0.2 * e }
    relu2
  }

dnn召回的效果指标都挺不错，展示占比也不低，是主要的召回源之一。实践中，user的emb存到cb，通常只存最新的，而item的index需要训练新旧两个版本，避免cb没刷完时user找不到item。

推荐系统入门实践（3）召回之youtube-dnn
DNN召回这里指的是youtube的Deep Neural Network for YouTube Recomm...
召回
1.推荐系统的召回2.如何理解推荐系统召回模型中的召回3.推荐系统从0到1[二]:个性化召回4.推荐系统二---召...
推荐系统入门实践（2）召回之cf、cs
简单说一下召回这里简单地说一下召回常用的方法或模型，以实践为准，有的可能会贴一点代码。我们在召回的时候，对每个...
推荐召回模型youtube-dnn
论文：https://static.googleusercontent.com/media/research.go...
推荐系统实践
入门书籍《推荐系统实践》
推荐系统入门实践（5）召回之node2vec
这部分算是图模型吧，会比较简略。 node2vec召回简单说呢，node2vec是通过构造item（根据需要，其...
推荐系统入门实践（4）召回之item2vec
item2vec召回 item2vec啊，其实就是word2vec，把word换成了item嘛！1. 知乎大佬的分...
【Django】入门实践指南之系统设计|第1篇
课程：Django入门实践指南 - 论坛系统打卡时间：2018.4.23 目录【Django】入门实践指南之环境...
【Django】入门实践指南之环境搭建|第0篇
课程：Django入门实践指南-论坛系统打卡时间：2018.4.20 目录【Django】入门实践指南之环境搭建...
推荐系统精品文章
推荐系统召回四模型之：全能的FM模型[https://zhuanlan.zhihu.com/p/58160982]...