简介
Elasticdump 是一个用于迁移和备份 Elasticsearch 数据的工具,它允许将数据从一个 Elasticsearch 索引或集群导出到文件中,也可以将文件中的数据导入到 Elasticsearch 索引或集群中。
使用条件:需要安装node
linux下
1.下载node.js包
wget https://nodejs.org/dist/v10.13.0/node-v10.13.0-linux-x64.tar.gz
2.解压node.js包
3.创建链接接
ln -s ~/node-v10.13.0-linux-x64/bin/node /usr/bin/node
ln -s ~/node-v10.13.0-linux-x64/bin/npm /usr/bin/npm
4.查看是否链接成功
node -v
npm -v
win下
可以通过这个文章的步骤来操作,windows 安装node及环境配置
安装elasticdump
本地:
npm install elasticdump
./bin/elasticdump
全局:
npm install elasticdump -g
elasticdump
使用elasticdump
Elasticdump的工作原理是将input
发送到output
。
格式:{protocol}://{host}:{port}/{index}
,例:http://127.0.0.1:9200/my_index
使用例子
1.使用分析器和映射将索引从生产复制到暂存:
elasticdump \
--input=http://production.es.com:9200/my_index \
--output=http://staging.es.com:9200/my_index \
--type=analyzer
elasticdump \
--input=http://production.es.com:9200/my_index \
--output=http://staging.es.com:9200/my_index \
--type=mapping
elasticdump \
--input=http://production.es.com:9200/my_index \
--output=http://staging.es.com:9200/my_index \
--type=data
2.将索引数据备份到文件:
elasticdump \
--input=http://production.es.com:9200/my_index \
--output=/data/my_index_mapping.json \
--type=mapping
elasticdump \
--input=http://production.es.com:9200/my_index \
--output=/data/my_index.json \
--type=data
3.使用stdout备份和索引到gzip:
elasticdump \
--input=http://production.es.com:9200/my_index \
--output=$ \
| gzip > /data/my_index.json.gz
4.将查询结果备份到文件:
elasticdump \
--input=http://production.es.com:9200/my_index \
--output=query.json \
--searchBody="{\"query\":{\"term\":{\"username\": \"admin\"}}}"
5.从文件中指定searchBody:
elasticdump \
--input=http://production.es.com:9200/my_index \
--output=query.json \
--searchBody=@/data/searchbody.json
6.复制单个shard数据:
elasticdump \
--input=http://es.com:9200/api \
--output=http://es.com:9200/api2 \
--input-params="{\"preference\":\"_shards:0\"}"
7.将aliases
备份到文件
elasticdump \
--input=http://es.com:9200/index-name/alias-filter \
--output=alias.json \
--type=alias
8.导入aliases
到ES
elasticdump \
--input=./alias.json \
--output=http://es.com:9200 \
--type=alias
9.备份templates 到文件
elasticdump \
--input=http://es.com:9200/template-filter \
--output=templates.json \
--type=template
10.导入 templates 到ES
elasticdump \
--input=./templates.json \
--output=http://es.com:9200 \
--type=template
11.将文件拆分为多个部分
elasticdump \
--input=http://production.es.com:9200/my_index \
--output=/data/my_index.json \
--fileSize=10mb
--s3AccessKeyId
AWS access key ID
--s3SecretAccessKeyAWS secret access key
--s3RegionAWS region
--s3BucketName of the bucket to which the data will be uploaded
--s3RecordKeyObject key (filename) for the data to be uploaded
--s3Compressgzip data before sending to s3
12.将数据从S3(AWS)导入ES (使用 s3urls)
elasticdump \
--s3AccessKeyId "${access_key_id}" \
--s3SecretAccessKey "${access_key_secret}" \
--input "s3://${bucket_name}/${file_name}.json" \
--output=http://production.es.com:9200/my_index
13.导出ES 数据到 S3(AWS) (使用 s3urls)
elasticdump \
--s3AccessKeyId "${access_key_id}" \
--s3SecretAccessKey "${access_key_secret}" \
--input=http://production.es.com:9200/my_index \
--output "s3://${bucket_name}/${file_name}.json"
Minio介绍: 官网 https://www.minio.org.cn/,Minio 是一个基于 Apache License v2.0 开源协议的对象存储服务。它兼容亚马逊 S3 云存储服务接口,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小,从几 kb 到最大 5T 不等。
14.从 MINIO (s3 compatible) 导入数据到 ES (使用 s3urls)
elasticdump \
--s3AccessKeyId "${access_key_id}" \
--s3SecretAccessKey "${access_key_secret}" \
--input "s3://${bucket_name}/${file_name}.json" \
--output=http://production.es.com:9200/my_index
--s3ForcePathStyle true
--s3Endpoint https://production.minio.co
15.导出ES 数据到 MINIO (s3 compatible) (使用 s3urls)
elasticdump \
--s3AccessKeyId "${access_key_id}" \
--s3SecretAccessKey "${access_key_secret}" \
--input=http://production.es.com:9200/my_index \
--output "s3://${bucket_name}/${file_name}.json"
--s3ForcePathStyle true
--s3Endpoint https://production.minio.co
16.将CSV文件中的数据导入ES(使用csvurls)
elasticdump \
# csv:// prefix must be included to allow parsing of csv files
# --input "csv://${file_path}.csv" \
--input "csv:///data/cars.csv"
--output=http://production.es.com:9200/my_index \
--csvSkipRows 1 # used to skip parsed rows (this does not include the headers row)
--csvDelimiter ";" # default csvDelimiter is ','
本地实例使用例子
elasticdump \
--input=http://es用户:es密码@esip:es端口/索引名 \
--searchBody="{\"query\":{\"range\":{\"@timestamp\":{\"gte\":\"2023-06-01T00:00:00\",\"lt\":\"2023-06-01T23:59:59\"}}},\"_source\":[\"message\"]}" \
--output=my_index_mapping.json \
--type=data \
--limit=10000 \
--concurrency=15 \
--scrollTime=10m
--searchBody
:导出指定条件的数据,本例指定了了时间范围和只导_source
里面的message
值
--output
:导出到本地my_index_mapping.json
文件
--type
:导出类型 data
--limit
:每个批次导出数量10000条,类似分页每页的数量
--concurrency
:指定 worker 的数量。默认情况下并发 worker 的数量为 3,可以根据需要适当增加 worker 数量来提高导出速度。
--scrollTime
:指定滚动窗口的时间,一旦滚动时间结束,Elasticsearch 就会关闭游标,这是一种较好的方式来减少游标的数量和内存占用。
此命令在我本地电脑执行了18min,导出了153W+数据,文件大小1.2G+,仅供参考。
网友评论