详解支撑7亿用户搜索的百度图片处理收录中台

作者: 该用户已秃头 | 来源:发表于2021-05-18 16:39 被阅读0次

详解支撑7亿用户搜索的百度图片处理收录中台
百度搜索落地页时间因子规范
空白微营销：百度图片搜索怎么优化、收录、排名和免费引流？
百度搜索网页展示图片要求
沦为软文不如带本工具书
百度竞价推广中关键词的匹配方式有哪些？
相机原生图片处理
How To系列(二):how to baidu dork
如何高效精准做图文推广
百度SEO优化方案

导读：在百度搜索中，主要由“搜索在线”和“搜索离线”两部分构成，“在线”服务主要用于响应用户请求，“离线”服务则将各种来源的数据转换处理后送入“在线”服务中。“搜索离线”的数据处理是一个典型的海量数据批次/实时计算结合的场景。

全文4142字，预计阅读时间8分钟。

一、多模态检索背后的”离线“与“在线”

在百度搜索中，主要由“搜索在线”和“搜索离线”部分构成，“在线”服务主要用于响应用户请求，“离线”服务则将各种来源的数据转换处理后送入“在线”服务中。“搜索离线”的数据处理是一个典型的海量数据批次/实时计算结合的场景。

2015年起，百度App上线了多模态检索能力，将智能化搜索直观体现在用户面前。多模态检索是在传统文本检索之上，增加了视觉检索和语音检索的能力。

其中，“视觉检索”和“文本检索图片”这两类业务的离线、在线技术上，有很多地方是共通的。以视觉检索为例，产品形态包括：猜词、更多尺寸图片、图片来源、垂类图片（短视频、商品、等）、相似推荐等，其背后依托的核心技术有分类（GPU在线模型预估）与ann检索。

在ann检索方面，目前主要采用的检索方法有基于聚类的gno-imi、基于图的hnsw，以及局部敏感hash方法，选型的主要考虑是技术方案成本与特征的适用性，比如gno-imi是百度内开源的，内存占用比较小的方案，应用到百亿规模的ann检索上成本可接受；局部敏感hash的方法，应用到SIFT这类局部特征上，可以加强手机拍照识别场景下召回效果。

这些在线技术的背后，依赖的特征有百余种，离线要收录全网图片，并对图片计算特征，其算力开销是非常庞大的；另外，图片在互联网上依附于网页，还需要维护“图片-图片链接-网页链接”的关系（离线数据处理、在线应用都离不开数据关系，比如为了溯源，需要提供图片的来源网页url等）。

此种情况下，搜索架构部与内容技术架构部依据自身业务与技术特点，联合设计与开发了“图片处理收录中台”，以期达到以下目的：

统一的数据获取与处理能力，可整合图片类业务的数据获取、处理、存储逻辑，提升人效，降低存储&计算成本。
百亿~千亿级别的图片应用，可实现快速调研、数据采集、全网数据更新能力。
建设图片实时筛选与定制下发数据通路，提升图片资源引入的时效性。

该项目在内部名为Imazon项目。Imazon来自于Image + Amazon，其中amazon代表中台能力的吞吐能力、DAG处理能力、图片容量。

目前，图片处理收录中台，提供复杂业务场景下单日处理数十亿级图片数据，秒级实时收录百gps，全网收录万级别gps。平台目前支持多个业务线的图片处理与收录需求，大幅提高了业务执行效率。

二、图片处理收录中台的架构与关键技术

搜索效果的持续优化，离不开数据与算力，主要以收录，存储，计算为核心。图片处理收录中台，希望通过中台提供的通用能力包括：从时效、全网图片收录通路中筛选数据、提供大吞吐的流式处理机制、图片-网页关系刻画能力、原图&缩图存储、在线处理机制等。

2.1 图片处理收录中台解决什么问题？

图片处理收录中台的主体流程，经历6个阶段：网页spider（获取网页内容），图片内容提取，图片spider（爬取图片），特征计算（百余种特征），内容关系存储，建库。如下图所示：

2.2 图片处理收录中台的技术指标

中台的技术指标定义，从架构指标、效果、研发效率3方面来描述。

架构指标包括吞吐、扩展性、稳定性：

吞吐，即在成本限制内，提高吞吐，具体指标为：单数据大小：百K bytes（图片+特征）；实时收录百qps；全网收录万级别qps
扩展性，即云原生部署、算力资源弹性调度，有资源时快点算，没资源时慢点算。
稳定性，即不丢数据，自动重试，自动回放；时效性数据分钟级处理成功率；全网数据天级处理成功率

效果指标主要关注数据关系：

真实的图片-网页链接关系（e.g. 网页/图片退场了，关系更新）

研发效率指标包括业务通用性和语言灵活性：

业务通用性：支撑依赖全网图片的业务获取数据；特征迭代
语言灵活性：C++&go&php

2.3 图片处理收录中台的架构设计

图片处理收录是一个无界数据的流式处理过程，因此整体架构设计以流式实时处理系统为主，兼支持批处理输入。同时，为了解决大吞吐需求、业务研发效率等问题，设计中采用了弹性计算&事件驱动、业务逻辑与DAG框架解耦部署等思想。具体如下图所示，后文会详细讲解。

2.4 图片处理收录中台的基础设施

百度基础设施：

存储：table、bdrp(redis)、undb、bos
消息队列：bigpipe
服务框架：baidurpc、GDP(go)、ODP(php)

依托&构建的业务基础设施

Pipeline调度：odyssey，支撑架构全景中的各DAG
流控系统：在核心入口层，提供均衡流量、调节流量的能力
千仞：托管/调度/路由百~千类上万实例的cpu/gpu算子
内容关系引擎：刻画图-网页关系，基于事件驱动计算，与blades联动弹性调度
离线微服务组件：Tigris，DAG节点的具体业务逻辑放到远程RPC中执行

三、优化实践

下面简单介绍在面向大吞吐高算力场景下，中台的一些优化实践。

3.1 大吞吐流式处理架构的实践

成本（算力、存储）是有限的，面对大吞吐需求，在如下方向做了针对性优化：

消息队列成本高
流量毛刺、波峰波谷带来的资源利用率不足
算力不够带来的数据堆积

3.1.1 消息队列成本优化

在离线流式数据处理中，通过消息队列在DAG/pipeline中传输数据是比较常规的方案，该方案可以借助消息队列的持久化来保证业务对数据的不丢的要求（at least once）。业务特点：

Pipeline/DAG中的传输的是图片及其特征，百K bytes，消息队列的成本比较高昂
下游算子，不一定需要所有数据，通过message queue透传所有字段性价比低

具体优化思路如下：

DAG中message queue传引用（trigger msg），DAG中算子的输出存储到旁路cache
旁路cache的高吞吐低成本优化，利用DAG中数据的生命周期，主动删除&脏写优化

具体协议设计为：

Trigger msg（bytes），通过message queue，miner间点对点传输
TigrisTuple（100K~ bytes）通过redis实现miner间共享
ProcessorTuple（M~ bytes）通过旁路cache实现按需读写

3.1.2 流量均衡与波峰滞后计算

入口流量的波峰波谷或毛刺，使得全系统必须按照峰值容量部署，但是低峰期资源利用率又不够。如下图：

具体优化思路如下：

通过反压/流控机制，在资源恒定的前提下，将系统的总吞吐最大化

流控系统平滑流量，减少均值与峰值的gap，使得全系统各模块的“容量利用率”稳定维持在高位
DAG/pipeline具备反压能力，当局部模块容量不足，反压到流控模块，流控模块自适应调节，波峰数据滞后到波谷计算
为解决业务上不可接受的数据滞后，区分数据优先级，保证高优数据优先分发（全系统的吞吐设计至少cover高优数据的吞吐）

3.1.3 解决大吞吐场景下算力临时不够带来的数据堆积

全网数据收录场景下，特征计算存在GPU资源瓶颈，这些特征消耗的GPU卡非常巨大，可以通过“错峰”与“离在线混布、临时资源使用”等思路可以解决该问题，但是引入了新问题：离线pipeline中无法buffer这么多的数据，且不希望反压影响上游DAG处理吞吐

具体优化思路：

分析瓶颈点，拆分DAG；利用存储DB作为“天然的流控”系统，事件驱动（弹性调度计算特征、特征就位触发调度下游DAG）。

3.2 内容关系引擎

互联网的图片内容关系，可以用一个三部图来刻画。采用下面的概念定义进行描述：

f：fromurl，代表网页，f下有多个o。f纬度的特征：title、page type等
o：objurl，代表图片链接，一个o只能指向一张图片。o纬度的特征：死链
c：图片content sign，图片内容的签名，代表图片。c纬度的特征：图片内容、ocr、清晰度、人物，等
fo：网页与图片链接的边。边的特征：图片上下文、alt
oc：图片链接与图片的边。边的特征：图片爬取时间

内容关系引擎，需要能够刻画如下行为：

为刻画互联网中各元素完整关系描述，这是一个千亿节点规模，P级别存储的图数据库，需要达成的系统指标如下：

写性能：
vertex：万级别qps，单节点属性（100~K bytes）
edge：十万级别qps
读性能（全量筛选、特征迭代）：
导出的点、边属性信息（scan吞吐需求：G bytes/s）

为了解决读写性能问题，基于table设计了COF三部图内容关系引擎，核心设计思路如下：

C表采用前缀hash做数据划分，保证scan的顺序性，并读到完整关系（c来源于哪些o，o来源于哪些f），P级存储
O表采用SSD机制，支持查O对应的C
F表采用SSD介质，提高随机读性能；保存反向映射关系，支持通过F查找O与C

详解支撑7亿用户搜索的百度图片处理收录中台

为减少随机写带来的IO瓶颈、降低系统事务复杂性，采用了“基于版本的校验方法，读时校验，异步退场”来保证关系的正确性。

3.3 其他实践

为提升业务研发迭代效率、提升系统自身维护性，系统解决了一些问题，但是在提升“研发幸福感”的路上，才刚刚上路。我们着重解决研发效率和维护成本的问题。

比如在业务接入效率方面：

数据源复用

Problem：10个业务的数据，有10种格式，proto嵌入太多，看不懂
Try：从异构schema=>标准schema；OP的input/output管理

DAG****产出复用

Problem：不能影响上游的DAG处理吞吐和速度。
Try：DAG rpc串联，解决级联阻塞；DAG原生衔接，数据生存周期问题， copy on write&erase

资源存储复用：

Problem：我用了他产生缩图，但是这个缩图现在打不开了！什么，原图也被删了？
Try：多租户机制，引用计数退场，cdn统一接入、在线统一智能裁剪与压缩

在多语言支持方面：

Problem：
想用C++/Python/PHP/go，框架兼容复杂！速度慢了，谁的问题？
我只实现一个业务逻辑就行了，不想关心DAG的太多细节
Try：
DAG框架语言统一，通过远程rpc隔离业务实现
Rpc Echo(trigger msg[in], tigris tuple[in], processor input list[in], processor output list[out])

在维护成本方面：

Problem：
这个数据为什么没有收录？
短信99+（warning、fatal混杂）、怎么办：消息队列又堵塞了
Try：
分布式app日志trace
监控&报警，分类+howto
业务核心指标：收录规模/s，按分位收录时间，特征覆盖率，业务分发规模/s，数据丢失率，超时收录占比
系统核心指标：DAG提交PV，DAG容量/利用率，OP status（OK、FAIL、RETRY、…），OP容量/利用率，OP耗时/超时率
关键点指标：依赖服务吞吐、时延、失败；OP内部细节监控；

作者：百度Geek说
链接：https://juejin.cn/post/6963510398817419271
来源：掘金

详解支撑7亿用户搜索的百度图片处理收录中台
导读：在百度搜索中，主要由“搜索在线”和“搜索离线”两部分构成，“在线”服务主要用于响应用户请求，“离线”服务则将...
百度搜索落地页时间因子规范
一、前言落地页时间因子是百度搜索判断网站收录、展示、排序结果的重要参考依据，百度搜索综合用户对落地页中关于时间因...
空白微营销：百度图片搜索怎么优化、收录、排名和免费引流？
本文大纲如下： 1、百度图片是什么，有什么好处? 2、百度图片搜索收录基本原则 3、百度图片如何做优化? 4、百度...
百度搜索网页展示图片要求
一直有站长通过各种渠道向百度站长平台询问百度图片搜索收录排序的问题，为此我们专程采访了图片搜索的相关负责同学，了解...
沦为软文不如带本工具书
有些情况我承认百度收录之后会帮到搜索的用户。然而，大平台的教材更系统。
百度竞价推广中关键词的匹配方式有哪些？
当用户在百度进行某个信息的搜索时，搜索引擎就会将与之相关联的内容呈现给用户，而用户搜索输入的搜索词与百度竞价推广中...
相机原生图片处理
相机原生图片详解相机原生图片处理
How To系列(二):how to baidu dork
首先说一下，学习百度搜索语法的作用是什么呢？有时候有些网站的链接google收录不了，百度可能收录了。百度搜索引...
如何高效精准做图文推广
用户数量巨大，使用图片搜索的人也非常多。如果我们在做推广时，能充分挖掘“图片”的潜力，无疑对我们提高网站收录是很有...
百度SEO优化方案
因很多网站需要用到百度SEO搜索优化，所以写一篇相关的搜索优化文档，仅供参考。一.提交给百度收录如果想查询收录...

详解支撑7亿用户搜索的百度图片处理收录中台

一、多模态检索背后的”离线“与“在线”

二、图片处理收录中台的架构与关键技术

2.1 图片处理收录中台解决什么问题？

2.2 图片处理收录中台的技术指标

2.3 图片处理收录中台的架构设计

2.4 图片处理收录中台的基础设施

三、优化实践

3.1 大吞吐流式处理架构的实践

3.1.1 消息队列成本优化

3.1.2 流量均衡与波峰滞后计算

3.1.3 解决大吞吐场景下算力临时不够带来的数据堆积

3.2 内容关系引擎

3.3 其他实践

相关文章

详解支撑7亿用户搜索的百度图片处理收录中台

百度搜索落地页时间因子规范

空白微营销：百度图片搜索怎么优化、收录、排名和免费引流？

百度搜索网页展示图片要求

沦为软文不如带本工具书

百度竞价推广中关键词的匹配方式有哪些？

相机原生图片处理

How To系列(二):how to baidu dork

如何高效精准做图文推广

百度SEO优化方案

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Java