Elasticsearch-初识

作者: lotusfan2018 | 来源:发表于2023-05-22 14:59 被阅读0次

ElasticStack5.5.0安装
Java进阶-Elasticsearch
ES常用文档地址
Elasticsearch教程
ElasticSearch-聚合
Elasticsearch-基础
Elasticsearch-入门
Elasticsearch-聚合
elasticsearch-进阶2
ElasticSearch-索引原理

Elasticsearch 是一个分布式的开源搜索引擎，用于存储和检索数据。它使用灵活的、无模式的数据模型，可以轻松地索引和搜索数据。Elasticsearch 的存储结构由多个组件组成，包括索引、文档、分片、副本和 Lucene 索引。

整体架构

分片、副本、索引

索引是 Elasticsearch 中最小的数据存储单元。每个索引都有一个唯一的名称，并且可以包含多个文档类型。文档是 Elasticsearch 中的基本数据单元，表示为 JSON 对象。每个文档可以包含多个字段，每个字段都有一个名称和相应的值。

{![Untitled 1.png](https://img.haomeiwen.com/i12192745/4294c85f343e1133.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

![Untitled 2.png](https://img.haomeiwen.com/i12192745/c27c39563233ed9d.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

![Untitled.png](https://img.haomeiwen.com/i12192745/0c5f79443592f060.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

  "索引名称": {
    "mappings": {
      "文档类型": {
        "properties": {
          "字段名1": {
            "type": "数据类型1"
          },
          "字段名2": {
            "type": "数据类型2"
          },
          ...
        }
      }
    }
  }
}

为了支持大规模的数据存储和处理，Elasticsearch 将每个索引分成多个分片。每个分片是索引数据的子集，可以看作是一个较小的独立索引。分片可以分布在群集中的多个节点上，使 Elasticsearch 能够存储和处理大量的数据。
为了提高数据的可用性和冗余性，Elasticsearch 可以创建每个分片的副本。每个副本是分片数据的完整副本，可以存储在不同的节点上。这使得 Elasticsearch 能够在节点或分片故障时继续提供数据服务。

在底层，Elasticsearch 使用 Lucene 作为其搜索引擎库。每个分片对应一个 Lucene 索引，它是一种数据结构，可以进行快速和高效的全文搜索。Lucene 索引是倒排索引，它优化了按关键字而不是按文档进行搜索。

索引分片

当文档在 Elasticsearch 中索引时，它被分配到特定的索引和一个或多个分片中。每个分片都分配到群集中的一个特定节点上，根据需要创建副本以确保数据的可用性。通过为每个索引配置分片和副本的数量，Elasticsearch 可以平衡数据容量和可用性，同时优化性能和可扩展性。

节点

节点是一个 Elasticsearch 的实例，本质上是一个 Java 进程。每个节点上都保存着集群的状态信息，包括所有的节点信息、所有的索引和相关的 Mapping 与 Setting 信息以及分片的路由信息等。节点按照角色可以划分为主节点、数据节点、协调节点和预处理节点等。

Master节点：是Elasticsearch集群中的核心节点，负责集群的管理和协调工作，例如创建和删除索引，分配分片等。Master节点是集群中的唯一节点，负责维护集群状态、处理节点故障和重新选举新的Master节点等任务。此外，为了提高可用性，通常会配置多个Master候选节点进行备份和故障转移，这些节点也被称为Master-eligible节点。(配置项：node.master，默认为true)
Data节点：负责存储索引数据和执行搜索操作。一个集群中可以有多个Data节点。此外，Data节点还可以根据需要进行水平扩展，以应对数据量增加的情况。在扩展时，可以添加新的节点并将数据重新分配到这些节点上，以实现更高效的数据存储和搜索。除此之外，Data节点还负责数据备份和恢复，在数据丢失或损坏时可以快速恢复数据。因此，在设计集群架构时需要合理规划Data节点的数量和配置，以确保系统的稳定性和可靠性。(配置项：node.data，默认为true)
Ingest节点：Ingest节点是ELK（Elasticsearch, Logstash, Kibana）架构中的重要组成部分，主要用于对数据进行预处理。它可以在数据到达Data节点之前对数据进行解析、转换和过滤。这样可以在数据被索引之前对其进行规范化和优化，从而提高数据处理和查询的效率。Ingest节点通常与Data节点一起部署，因为它们需要共享相同的数据存储。数据在Ingest节点上进行预处理，然后将其发送到Data节点进行索引和存储。这样可以确保数据处理的一致性，并减少数据传输的成本和延迟。（配置项：node.ingest，默认为true）
Client节点：作为客户端与集群进行交互，例如执行搜索请求。Client节点不存储任何数据，它们只是转发请求到Data节点并返回结果。
Coordinating节点：负责协调搜索请求的处理，并将结果聚合返回给客户端。Coordinating节点通常与Client节点一起部署，但也可以与Data节点一起部署以减少网络延迟。（配置项：设置上面三个参数全部为false，那么它就是一个纯协调节点）