使用elasticsearch＋jieba搭建搜索服务

使用elasticsearch＋jieba搭建搜索服务

作者: skywalker | 来源:发表于2015-06-17 22:21 被阅读5100次

使用elasticsearch＋jieba搭建搜索服务
nodejs搭建服务器
极速编程 native-react（3）
xshell使用xftp传输文件、使用pure-ftpd搭建ft
Mac 搭建本地服务器
第十篇：基于Solr服务搭建搜索工程
[头参数]01 - 搭建服务器
Docker安装Minio
ngrok+nginx反向代理配置与其他站点共用80端口及ng
搭建自己的搜索服务

一. 应用场景

当垂直类互联网服务提供的信息显著增加的时候，用户如何快速获取信息就会成为瓶颈
典型的应用场景包括：1）商品搜索；2）房源搜索；等等
本文讨论如何基于开源的工具搭建一个基础的搜索引擎，满足如下需求
1）能够根据商品的描述召回结果，如：搜索“欧洲皮鞋” 返回相关商品，注意:这一步仅考虑文本相关性
2）支持中文分词，并支持自定义品牌词和类目词以提升搜索的准确率
3）千万量级索引

二. 选型

开源索引系统服务 solr vs elasticsearch
solr和elasticsearch都是基于lucene（java）的封装，都能提供较为通用完整的检索服务。最近elasticsearch由于对日志处理分析，更友好的初始配置和更好的分布式话部署方案而被更多的人接受使用。

elasticsearch参考资料
《master elasticsearch》
《elasticsearch cookbook》
《elasticsearch server》

中文分词
中文分词器比较著名的有ik和jieba。二者都自带搜狗的分词dict，并且支持自定义新词。jieba的更新周期以及github的star数更多，适配elasticsearch也比较好，所以本文基于该中文分词组件进行优化。
jieba分词
 jieba for elasticsearch
更多:常用的开源中文分词工具

三. 架构设计

系统架构如下图所示

搜索系统架构图

其中，

php层主要职责
1）向下负载均衡，失败重试，支持无缝换库
2）拼装结果集返回给app或者web页面
as层主要职责
1）高阶排序，根据：商品的属性，卖家的属性，历史单机展示等进行综合打分rerank
2）依赖特征等信息存储在redis
3）同义词扩展支持，rewrite query
bs层主要职责
1）基于jieba定制中文分词analyzer
2）制定index中的mapping内容，以获得更好的检索结果
3）换库脚本, 建库数据来自mysql集群（爬虫相关问题需要另行关注）
检索干预mis
1）指定query的前N个结果。
2）指定query下不出某些结果。

一次检索的流程，如下图所示

检索处理流程图

四. 更多

按照如上的架构可以搭建出来基础的针对业务的服务，但是后面优化的空间还十分的巨大
1）用户意图的理解，对应的技术领域是：query重写，（在百度叫：DA，DA-SE输入纠错模块）
2）as层的机器学习方法的引入，通过大量统计数据提升点击效果
通过学习和使用elasticsearch感受到的优点
1）分布式索引的设计：M*N, M可以理解为数据的垂直切分，如：VIP和SE裤，N可以理解为为了支持更快跟多的qps进行的水平切分。es支持down机器重启自动加入集群等灵活的功能
2）接口的灵活性，如是否使用分词分析，对某个复合query检索词的部分进行调权/降权

相关文章

使用elasticsearch＋jieba搭建搜索服务
一. 应用场景当垂直类互联网服务提供的信息显著增加的时候，用户如何快速获取信息就会成为瓶颈典型的应用场景包括：...
nodejs搭建服务器
1.使用内置http搭建服务 2.基于express模块搭建服务
极速编程 native-react（3）
搭建服务器端，使用 express 框架搭建 restful 服务，数据库使用 mongodb。通过 jwt 进行...
xshell使用xftp传输文件、使用pure-ftpd搭建ft
测试ftp 测试ftp 使用pure-ftpd搭建ftp服务使用pure-ftpd搭建ftp服务扩展vsftp...
Mac 搭建本地服务器
Mac 搭建本地的Apache服务器 ,在网上找了一些资料直接在baidu搜索 Mac 搭建Apache服务器,...
第十篇：基于Solr服务搭建搜索工程
前言：上面我们已经搭建好了Solr服务器，现在我们要利用这个Solr服务来搭建我们的搜素服务工程 1.创建搜索服务...
[头参数]01 - 搭建服务器
目录使用node搭建http服务端 1. 使用node搭建http服务端代码 response.end来返回数...
Docker安装Minio
使用Minio搭建图片服务器，相比fastdfs使用Minio搭建文件服务器更方便。记得先安装docker。官方...
ngrok+nginx反向代理配置与其他站点共用80端口及ng
Ngrok服务器搭建服务器搭建推荐使用 https://github.com/sunnyos/ngrok cen...
搭建自己的搜索服务
1. 在https://workers.cloudflare.com注册一个账号 2. 写入如下代码 3. 保存并...

网友评论

本文标题：使用elasticsearch＋jieba搭建搜索服务

本文链接：https://www.haomeiwen.com/subject/jzdsqttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

程序猿大本营

郭志敏的程序员书屋

热点阅读

技术

elasticsearch

攻城师

程序员

程序猿大本营

郭志敏的程序员书屋

关于我们|服务条款|联系我们|使用elasticsearch＋jieba搭建搜索服务|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！