es核心知识篇一：核心知识介绍

作者: codeMover | 来源:发表于2021-02-24 15:40 被阅读0次

es核心知识篇一：核心知识介绍
es核心知识篇三：es特性
无标题文章
es核心知识篇二：安装使用
es6-selfnote
核心动画(一)
每天5分钟玩转Docker容器技术（二）
[数据知识]DAMA数据管理—数据操作管理
[数据知识]DAMA数据管理—数据安全管理
[数据知识]DAMA数据管理—数据开发

1. 什么是搜索

搜索就是在任何场景下，找寻你想要的信息，输入搜索关键字，搜到关键字相关的信息。

站内搜索
- 互联网搜索：淘宝
- IT系统内搜索：OA系统
站外搜索：百度、谷歌

2. 如果用数据库做搜索会怎么样？

like关键字匹配查询慢；如果关键字不连续匹配不出想要的数据。

3. 什么是全文检索和Lucene？

传统做法：数据库的数据，一共有100万条，按照之间关系型数据库的思路，扫描100万次，而且每次扫描都需要对文本所有的字符进行匹配，确认包含搜索的关键字，而且还不能将搜索词拆解开来进行检索。
利用倒排索引进行搜索：假设有100万条数据，拆分出来的词语是1000万，那么倒排索引中就有1000万条记录，我们可能并不需要检索100万次数据，只需要将匹配1000万关键词即可，这样还可以将搜索词拆分进行匹配。
Lucene:就是一个jar，里面包含了封装好的各种简历倒排索引以及进行搜索的代码，包含各种算法。我们用Java开发的时候，引入Lucene进行开发就可以。用Lucene，我们就可以去将已有的数据建立索引，Lucene会在本次磁盘上给我们组织索引的数据结构；另外，我们也可以用Lucene提供的功能和API对磁盘上的数据进行搜索。

4. 什么是ElasticSearch？

Lucene是单机部署，单台机器存在容量上限，不支持分布式；如果部署多台机器，需要保证高可用，如高性能建立索引，保证数据不丢失等。
ES是基于Lucene封装的，支持分布式，并具备以下特点：

自动维护数据分布到多个节点建立索引，还有搜索请求分布到多个节点执行
自动维护数据的冗余副本，保证一些机器宕机后，不影响功能使用，不丢失任何数据应用；复杂的搜索功能，聚合分析功能；基于地理位置的搜索。
封装了很多高级功能，给使用者提供更多高级的支持，搜索、聚合、基于地理位置，让我们快速开发应用，开发更加复杂的应用。

5. ElasticSearch的功能？

分布式的搜索引擎和数据分析引擎
全文检索、结构化检索、数据分析、部分匹配、自动完成、搜索纠错、搜索推荐
对海量数据进行近实时分析处理

6. ElasticSearch的适用场景？

维基百科、百度、谷歌
淘宝
OA系统
数据分析

7. ElasticSearch的适用场景？

可以作为一个大型分布式集群(数百台服务器)技术，处理PB级数据，服务大公司；也可以运行在单机上，服务小公司。
es不是什么新技术，主要是将全文检索、数据分析以及分布式技术合并在一起
开箱即用，非常简单
数据库的功能面对很多淋雨是不够用的，比如全文检索，同义词处理，相关度排名，复杂数据分析，海量数据的近实时处理；es作为传统数据库的补充，提供了数据库不能提供的很多功能。

8. Lucene和ElasticSearch的前世今生

lucene是最先进、功能最强大的搜索库，直接基于lucene开发，非常复杂，api复杂，需要深入理解原理

elasticsearch基于lucene，隐藏复杂性，提供简单易用的restful api接口

分布式的文档存储引擎
分布式的搜索引擎和分析引擎
分数是，支持pb级别的数据
开箱即用，优秀的默认参数，不需要额外设置，完全开源

9. ElasticSearch的核心概念

Near Realtime（NRT）：近实时，两个意思，从写入数据到数据可以检索到右一个延迟(大概1秒)；基于es执行搜索和分析可以达到秒级。
Cluster：集群，包含多个节点，每个节点属于哪个集群是通过一个配置(集群名默认是elasticsearch)来决定的，对于中小应用来书，刚开始一个集群就是一个节点。
Node：节点，集群中的一个节点，节点也有一个名称(默认是随机分配的)，节点名称很重要(在执行运维管理操作的时候)，默认节点会加入一个名称叫elasticsearch的集群，如果直接启动一堆节点，name他们会自动组成一个elasticsearch集群，当然一个节点也可以组成一个elastic集群
Document：文档，es中的最小数据单元，一个document可以是一条客户数据，一条商品分类数据，一条订单数据，通常用json数据结构表示，每个index下的type中，都可以取存储多个document。
Field：数据字段，一个Document有多个Field
Index：索引，包含一堆具有相似结构的文档数据，比如可以有一个客户索引，商品分类索引，订单索引，索引有一个名称。
Type：类型，每个索引里都可以有一个或多个type，type是index中的一个逻辑数据分类，一个type下的document具有相同的field。比入一个系统同，用户type、结算type等。

商品index，里面存放了多个商品数据，商品Document。

但是商品有很多分类，每个种类的document的field可能不大一样，比如有的商品需要特殊字段标识，比如商品有效期并不是所有商品都存在属性。每个type里面都会包含一堆document。
shard：单台机器无法存储大量数据，es可以将一个索引中的数据分为多个shard，分布在多台机器上存储。有了shard就可以横向扩展，存储更多数据，让搜索和分析等操作分布到多台机器上去执行，提升吞吐量和性能。每个shard都是一个lucene index。

index会被拆分多个shard，每个shard丢回保存这个一部分数据，这些shard会散落到多态服务器上面

shard好处：
- 横向扩展：可以方便加机器
- 数据分布在多个shard，多态服务器上，都会在多态服务器上并行分布式执行，提升屯吞度量和性能
replica：任何一个服务器随时可能出现故障或宕机。此时shrad可能就会丢失，因此可以为每个shard创建多个replica副本。replica可以在shard故障时提供备用服务，保证数据不丢失，多个replica还可以提升搜索的吞吐量和性能。primary shard(建立索引时一次设置，不能修改，默认5个)，replica shard(随时修改数量，每个primary默认有1个replica shard)，默认每个索引10个shard，5个primary shard和5个replica shard，最小的高可用配置，是2台服务器。
- 高可用性：一个shard宕机，数据不丢，服务继续提供
- 提升了搜索这类请求的吞吐量和性能

10. ElasticSearch vs 数据库核心概念

es	数据库
index	数据库
type	表
document	行

网友评论

本文标题：es核心知识篇一：核心知识介绍

本文链接：https://www.haomeiwen.com/subject/spjsfltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！