前缀树
我们使用搜索引擎时,当输入一个字的时候,搜索栏的下拉页面会出现相同前缀的推荐词:

使用的这样一种工具叫做前缀树,它具有如下特征:
- 根节点不保存数值。
- 从根节点到叶节点所有值拼接起来构成了一个字符串。
- 每个节点的子节点包含的值都不相同。
elasticsearch简介
搜索引擎的三大步骤:
- 爬取内容
- 进行分词
- 建立反向索引
elasticsearch里面的专有名词
- 索引:类似mysql的一个数据库
- 类型:可以用来定义数据结构,类似mysql中的一张表
- 文档:类似mysql中的数据,可以理解为一条数据。存储的数据,字段可以定义为KEYWORD,也可以定义为CONTEXT。其中KEYWORD的字段直接建立倒排索引,CONTEXT要先进行分词,再建立倒排索引。
elasticsearch其他特性
- elasticsearch在lucence的基础上进行封装,实现分布式搜索引擎
- es也是master-slave架构,实现了数据的分片和备份。
- es的典型应用是elk日志分析系统。其中e指的是es,l指的是日志,k指的是展示。
es查询
如果有1w首诗,那么会建立一个索引,一个类型poem,然后对所有的数据共建一个倒排索引,比如有一个词“明月”,就可以查出来所有对应的诗。
对于倒排索引准确的机理,还是不太清楚。
网友评论