产品目标:高效地获取信息
需求复杂又多变,不同用户输入同一个query表达的需求可能也不一致,同一用户在不同场景下输入同一个query表达的需求也可能不一致
需求理解:广义的query解析
a.需求明确(让机器按照人对文字的理解处理)
b.需求明确,但对答案有特殊要求(猪肉的最新价格,要求最新 需要从多个维度判断是不是最新)
c.需求不明确,需要进行需求扩展和预测(杨幂,需要拓展为杨幂图片、杨幂的电视剧等)
需求明确的query
a.结构简单清晰的query:经过切词处理即可进行后续检索
栗子:黄山火车站订票电话 — 黄山 火车 站 订 票 电话 (距离和紧密度成正比)
b.口语化的query:需要进行纠错、同义转换等语义处理
栗子:杭州至盐城高速怎么走 — 杭州 至 盐城 高速 怎么 走(通过”怎么走“是地图需求,”至“表示方向的链接 可以识别前面的杭州和后面的盐城,”高速“识别为驾车这个路线优先,所以可以将这些词放到地图垂直引擎里)
c.表达方式复杂的query:需要进行更加unique的语义处理
栗子:披星()月、吾尝终日而思矣,后面(),无法用通用的处理方法需要 后续单独拎出来看
d.需求明确,对答案有特殊要求:除了统一的query变换外,需要将特定要求转换成搜索引擎可以理解的特征
栗子:猪肉的最新价格 — 资源的时效性
需求不明确的query
需要进行需求扩展和预测
欢乐颂 — 欢乐颂视频、剧情介绍、演员表、评论...
怎么进行需求扩展?
上下文数据:搜了欢乐颂后,用户是否主动更改qurey搜索欢乐颂视频
类目数据:对于 [欢乐颂] 这种电视剧专名,天然就有视频、剧情等需求。pm可以提前梳理针对各类目的需求list
个性化数据:对于特定类目可以进行地域扩展,家乐福—北京家乐福,有用户更倾向于看电影剧情,有的更喜欢看评论
总结为:
需求理解
经过上述的需求理解后,一个query会进过以上分类处理后,会统一成这样的输出,来进行接下来的检索:需求类目/需求词,需求强度,待检索term,其他限定特征(地域等)
衡量指标:
a.评估各个分析规则的召回率和准确率
b.各需求的召回率和准确率
解决方案:排序和展现
排序
不同需求间根据 需求强度(命中需求的概率)
同一需求间根据 结果质量(相关性(文本角度)、权威性、时效性、可用性)
所有排序都是基于点击行为的,实际上会把需求强度、结果质量作为初始排序,把用户点击行为作为后续不断调整排序的依据
展现
通用策略:将结果页中与query相关的信息提取为标题/摘要,进行标红等处理帮助用户筛选信息
细化策略:针对不同需求,又有如下不同的细化策略
a.单一明确信息需求,直接在摘要中展现
b.对于用户接下来路径相对收敛的需求,可以讲下一步需求前置,缩短步骤。例如网易邮箱(直接登录等)
c.对于不同资源类型结果,可以针对性优化摘要。例如视频类、图片类、新闻类、地图类
衡量指标— 用户搜索满足度
基于用户行为的搜索满足度
a.摘取满足型需求
b.单结果满足型需求
c.主动变换query比例低
d.翻页比例低等
基于人为评估的搜索满意度
a.query评估前n个结果相关性—认为需求潘盾,当前结果是否能满足,与竞品对比是否有更好的结果未收录、排序是否更优等
b.session满意度—从用户一个行为片段分析其是否满足
资源支撑
自然语言相关度与页面类型片
各类基础词库:用于query切词处理、同义转换、纠错等
语义理解和处理规则:用于query解析
网页相关
网页收录(spider):保证各类网页收录覆盖度; 保证网页收录的时效性:根据网页类型定义更新频率,重要或时效性要求高扥资源可选择站长主动要求提交的方式
页面分析:对页面类型进行识别,页面中内容解析、为term赋权等
网友评论