美文网首页
搜索数据浅谈

搜索数据浅谈

作者: 一个数据人的自留地 | 来源:发表于2021-12-10 23:28 被阅读0次

作者介绍

@edan

前商业数据分析师,现 TMD 数据产品经理;

期望和数据小伙伴一起做些有意思的事情;

“数据人创作者联盟”成员。

在信息获取方式上,当用户在没有明确诉求场景下会逛信息流,当用户有明确诉求时则使用搜索做信息获取。今天我带大家简单了解一下搜索产品的基本知识,并介绍搜索场景的核心指标体系。

01 产品视角的搜索

搜索入口:即输入框,典型入口位置有首页顶部搜索框。是用户发起搜索的窗口。

搜索前:即搜索起始页,这个页面一般有两个产品定位:扩认知(比如点评搜索起始的发现模块,主要是推荐一些平台强运营的关键词,建立用户点评可以搜索商户以外内容的认知)。提效率(比如历史搜索关键词)。

搜索中:即搜索 suggest 页,用户在框里开始输入搜词。同样为了帮助用户提升效率,产品会通过联想算法不断的基于用户没有输完的词吐出一个用户可能最终要搜的词列表(比如输入 “火”,就给出 “火锅”)。如果猜中用户真实诉求,那用户就可以直接点击看结果;在这个过程中,对于非常精准商户关键词,甚至可以直接给出详情页直达模块。

搜索后:即搜索结果列表页,这个页面最核心的能力是有序的组织展示结果。在结果类型比较多的时候,可以通过顶部锚点 tab、或者筛选器等方式来做快速定位。

02 系统逻辑视角的搜索

我们再从看看当用户输入一个关键词后,系统的处理逻辑。

这里更多从产品视角去理解搜索系统具体做了什么工作。

Query预处理:这一步更多是基于中文本身对用户输入的搜词作处理,保证文法的准确性。常规的操作基本有以下几种:

拼音转文字:比如在搜索框中输入 “yujunchanpinfangfalun” 时能理解出 “俞军产品方法论”,并给出搜索结果;

自动纠错:比如当用户在搜索框中输入 “于军”,其实用户想搜的是 “俞军”;

同义词转换:比如当用户输入 “首都机场”,可以理解为 “北京机场”。

意图理解:李善友老师在课程里讲过供需连模型。而搜索也是供需连模型里的连。在点评业务里,我们需要从意图的视角来理解用户的需求。举一个例子:

咖啡可以在饭店里作为饮料出售 - 美食类目;

咖啡可以在 KTV,酒吧作为饮料出售 - KTV 和酒吧类目;

咖啡可以是咖啡培训,在教培业务里是一个体验课;

咖啡可以是咖啡豆采摘体验之旅,是酒旅的一个特色旅行项目。

所以一个 query(关键词请求)并不能代表一个用户的需求,我们必须结合用户社会特征、时间特征、地理特征来理解用户 query 背后的意图,进而针对不同搜索意图给出不同的供给来满足用户。

供给召回与结果排序:搜索系统基于意图理解的结果,去库里面找到对应匹配的供给内容。并基于匹配度作最终的排序。

类似大众点评核心提供本地生活信息,其供给类型会多种多样,比如上面例子中用户搜咖啡,即可能是到店里要喝咖啡的商户(到店商户),也可能是想外卖回家的商户(外卖商户),也可能是想看咖啡相关的评价内容(内容)。

所以系统先按照可能的意图,对每个意图下的内容做了高匹配度商户的圈定召回。最后在按匹配度顺序排出各类供给以及供给下具体内容的先后顺序做内容展示。

03 搜索指标体系如何设计

在指标层面核心会从三个角度来考量:

用的多不多:即看是否有足够多的用户来用搜素,大家用的次数是不是足够多;

供给够不够:从系统层面考量,每个 query 下给到的供给是否充足,会不会有很多搜索 query 没有或者很少召回结果;

结果好不好:给到用户的结果是否是用户想要的,用户有没有点击,排在前面的是否先点击,点了几个,都是可以考虑召回结果匹配度,以及排序是否合理的考核指标。

在核心维度上,除了基础的流量维度(用户类型,页面城市等);我们可以搜前/搜中/搜后页面上不同粒度视角来分析;也可以用系统视角的意图理解相关维度来分析。

以上是相对基础核心的搜索产品应该看的指标维度,当产品复杂度变高,迭代策略更精细的时候会有更多指标考核不同模块,比如我们可以思考一下,用什么指标可以衡量 suggest 页确实提高了用户的效率。

04 搜索数据产品建设

搜索产品最初的阶段,可以对标竞品做产品迭代,并基于核心指标搭建报表体系做监控。

但当搜索入口的流量做到一定规模的时候,业务会开始更多从用户视角,通过搜索关键词粒度的分析(query 分析)来发现问题。

比如业务发现最近 “室外餐厅” 搜索量比较大,但是搜索结果页的 ctr 比较低,排查发现是没有做近义词改写,需要将其里加到改写词表相关集合 “室外餐厅;户外餐厅;露天餐厅” 中。

除了通过运营干预手段,也可以通过产品层的整体迭代来帮助提高核心路径的转化率。这个过程我们可以简单抽象成两个步骤:发现问题,定位问题原因。

第一,发现问题。通过构建搜索关键词榜单可以帮助用户发现问题所在:

热词榜单:所选时间段的搜索体量排名靠前的搜索关键词。

升势榜:搜索量环比前一时段增长快,且体量规模较大的搜索关键词。

高曝低点榜:搜索 ctr 较低,且体量有一定规模的搜索关键词。

少无结果榜:搜索召回结果小于一定阈值,且体量有一定规模的搜索关键词。

业务类榜单:比如美食热搜榜,酒店热搜榜单。(这部分基于业务实际运营抓手来做构建)。

第二,定位问题原因。可以从搜索链路视角(「query 处理」->「意图理解」->「召回曝光点击」)来甄别是哪个环节出了问题;也可以从流量行为视角来看是哪部分用户搜索出了问题;也可以从用户其他行为辅助你识别用户到底要什么。

基本的分析模块有以下几个:

意图理解分析:这部分可以打通业务自然语言处理系统,直接把 query 分词,改写,意图理解的词性,类目等信息整合过来。

结果分析:一方面分析召回 item 数量看供给是否充足,另一方面分析内容的曝光量与曝光点击率来观察用户诉求和平台供给是否一致(比如大部分曝光的是美食类目的商户,但是用户在 ktv 类目商户的点击率明显更高)。

重搜分析:用户在意图有方向但不是很明确时经常会有重搜的行为,比如搜了 “迪斯尼” 后,用户又搜 “迪斯尼英语”(用户不是要迪斯尼乐园,是要找迪斯尼英语门店)。重搜词的分析可以帮助我们理解消费者的真实意图。

session 分析:如果用户搜索行为本身已经不足以理解用户诉求,那可以进一步结合用户在 app 内的其他行为来做进一步分析;

画像分析:分析搜索用户的城市等级分布,城市分布、性别分布、年龄层分布等等;这部分可以参考百度指数里用户分析的部分。

相关文章

  • 搜索数据浅谈

    作者介绍 @edan 前商业数据分析师,现 TMD 数据产品经理; 期望和数据小伙伴一起做些有意思的事情; “数据...

  • 浅谈数据仓库(DW & BI)(五)

    历史文章: #42 浅谈数据仓库(DW & BI)(一):数据仓库发展起源及概述 #43 浅谈数据仓库(DW & ...

  • 浅谈算法和数据结构

    注:采转归档,自己学习查询使用 浅谈算法和数据结构: 一 栈和队列浅谈算法和数据结构: 二 基本排序算法浅谈算法和...

  • 浅谈数据仓库(DW & BI)(四)

    历史文章: #42 浅谈数据仓库(DW &BI)(一):数据仓库发展起源及概述 #43 浅谈数据仓库(DW &BI...

  • 浅谈数据仓库(DW &BI)(七):事实表技术

    历史内容: #42 浅谈数据仓库(DW&BI)(一):数据仓库发展起源及概述 #43 浅谈数据仓库(DW&BI)(...

  • 浅谈数据仓库(DW & BI)(三)

    回顾一下之前的内容: #42 浅谈数据仓库(DW &BI)(一):数据仓库发展起源及概述 #43 浅谈数据仓库(D...

  • 浅谈图像搜索

    前言 现在大火的人工智能更多时候是以别的名字进入公众视野的,主要是:语音识别,自然语言处理,计算机视觉,推荐系统等...

  • 倒排索引,正排索引与lucene

    数据搜索技术 传统数据库搜索技术: 倒排索引数据搜索技术: 当前搜索中出现了传统数据库搜索不能出现的php还是世界...

  • 每日安全资讯(2019.12.11)

    浅谈数据安全和隐私保护这次的话题是“浅谈数据安全和隐私保护”。这是一个看似离我们很远,但又时刻发生在大伙身边的问题...

  • 数据搜索

    数据搜索,就是来学习如何利用能够随手搜到的数据,帮助我们更好地做决策。 一、案例引入 亲戚的孩子刚刚高考完,分数还...

网友评论

      本文标题:搜索数据浅谈

      本文链接:https://www.haomeiwen.com/subject/cxwhfrtx.html