[搜索引擎] Facebook向量召回算法

[搜索引擎] Facebook向量召回算法

作者: nlpming | 来源:发表于2021-12-26 21:53 被阅读0次

[搜索引擎] Facebook向量召回算法
负样本为王：评Facebook的向量化召回算法
负样本为王：评Facebook的向量化召回算法
FastText情感分析和词向量训练实战——Keras算法练习（
faiss升级numpy版本惹的祸
解读四大行业趋势及政策调整，优化SEO精准引流
路由算法
二维向量加减法、模、点乘、叉乘以及坐标系旋转平移
《机器学习实战》读书笔记6
机器学习理论

1. 简介

本文介绍了embedding技术在Facebook搜索的应用。本文主要介绍embedding技术在Facebook搜索召回的应用，简单来说就是将Query, Doc都表示成向量，然后通过计算Query Embedding最近邻Doc Embedding来召回相关文档。召回层使用的技术一般有两种：一种是基于term匹配的倒排索引召回，另外一种就是基于Embedding的召回。 文本Facebook提出的基于Embedding的召回模型，也是一种双塔召回模型，类似DSSM模型结构，本文称之为Unified Embedding模型。Unified Embedding模型在得到Query, Doc embedding的时候，不仅考虑了文本信息，还考虑了上下文信息。

基于Embedding检索系统架构.png

2. 模型结构&Loss

Unified Embedding模型结构如下，模型由三部分组成：
（1）Query Encoder用于得到Query的向量；考虑了额外的上下文信息，比如当前搜索位置，社交属性特征。
（2）Doc Encoder用于得到Doc的向量；也考虑了额外的上下文信息。
（3）Similarity Function用于计算Query, Doc embedding相似度；本文选用的cosine相似度。
离线会将Doc的embedding事先计算好存起来，Query的embeding在线计算，然后使用faiss召回最相似的Doc；
本文选用的损失函数是Triplet Loss，输入是一个三元组包括： $(Q, D^+, D^-)$ ；数学表达式如下，其中 $m$ 表示margin值，需要自己设定，这个值对结果的影响非常的大。

Triplet损失函数.png

Unified Embedding模型.png

3. 样本选择&Hard negative挖掘

负样本的选择： 本文尝试了两种方法，第一种是随机选择负样本，第二种是将曝光未点击的样本作为负样本。最后发现将曝光未点击作为负样本，导致了非常差的结果。
正样本的选择： 第一种是将点击样本作为正样本，第二种是将曝光样本作为正样本。最后发现效果基本一样。
Hard negative样本挖掘：具体这块参考知乎大佬的解释：负样本为王：评Facebook的向量化召回算法

参考论文

[Facebook EBR] Embedding-based Retrieval in Facebook Search
https://arxiv.org/abs/2006.11632
[bpr loss] BPR: Bayesian Personalized Ranking from Implicit Feedback
https://arxiv.org/pdf/1205.2618.pdf

参考资料

负样本为王：评Facebook的向量化召回算法【重点阅读】
https://zhuanlan.zhihu.com/p/165064102
triplet loss
https://zhuanlan.zhihu.com/p/171627918
bpr loss
https://blog.csdn.net/qq_35541614/article/details/103816504

相关文章

[搜索引擎] Facebook向量召回算法
1. 简介本文介绍了embedding技术在Facebook搜索的应用。本文主要介绍embedding技术在Fa...
负样本为王：评Facebook的向量化召回算法
文章亮点： 1.提出“曝光未点击”在召回场景中的鸡肋作用2.提出筛选负样本的方案（主要是筛选hard负样本的三种方...
负样本为王：评Facebook的向量化召回算法
转自https://zhuanlan.zhihu.com/p/165064102[https://zhuanlan...
FastText情感分析和词向量训练实战——Keras算法练习（
FastText是facebook开源的一个词向量与文本分类工具，其最大的优点就是快，同时不失精度。此算法有两...
faiss升级numpy版本惹的祸
最近在进行Facebook的基于faiss语义召回用于电商搜索的召回开发工作时候，基于tensorflow在训练d...
解读四大行业趋势及政策调整，优化SEO精准引流
众所周知，像谷歌、Facebook这样的科技巨头一直不断地投入金钱、人力和时间来开发算法。因此，SEO（搜索引擎优...
路由算法
路由控制有各种各样的算法，其中最具代表性的有两种，是距离向量算法和链路状态算法。 1.距离向量算法距离向量算...
二维向量加减法、模、点乘、叉乘以及坐标系旋转平移
向量加法运算法则：首尾相连，连接首尾，指向终点向量减法运算法则：同起点，指被减（减向量终点指向被减向量终点）...
《机器学习实战》读书笔记6
支持向量机算法概述支持向量机（Support Vector Machines，SVM）这个算法的名字很抽象，简单...
机器学习理论
支持向量机 EM算法

网友评论

本文标题：[搜索引擎] Facebook向量召回算法

本文链接：https://www.haomeiwen.com/subject/oikeqrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|[搜索引擎] Facebook向量召回算法|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！