前言
TiDB 集群 IP 变更可以通过先扩容再缩容的方式,实现在线的集群 IP 的迁移。
此文档为离线变更操作手册。
- TiDB Server 作为一个无状态服务。所以直接更换 IP 即可,同时修改 PD Server 地址。
- TiKV Server 作为一个 Mutil Raft Group,信息会在 PD Server 中注册,所以直接更换 IP 即可,同时修改 PD Server 地址。
- PD Server 作为一个元数据管理节点,更换 IP 后需要新建 PD 集群,然后进行 PD Recover 操作,恢复原有 PD 集群信息。
收集需要的信息
新建 PD 集群后,现有的信息会丢失,因此需要些备份这些信息。
获取 PD 中的设置
.../tidb-ansible/resource/bin/pd-ctl -u http://{pdip}:2379 -d config show all > pd.txt
其中常见的调整参数有 leader-scheduler-limit、region-scheduler-limit、leader-scheduler-limit 等。
如果没有使用 pd-ctl 修改过默认配置,此步骤可跳过。
获取 Cluster ID
一般在 PD,TiKV 或 TiDB 的日志中都可以获取 Cluster ID。可以从中控机使用 ansible ad-hoc,也可以直接去服务器上翻日志。
从 pd 日志获取 [info] cluster id
ansible -i inventory.ini pd_servers -m shell -a 'cat {{deploy_dir}}/log/pd.log | grep "init cluster id" | head -10'
10.0.1.13 | CHANGED | rc=0 >>
[2019/10/14 10:35:38.880 +00:00] [INFO] [server.go:212] ["init cluster id"] [cluster-id=6747551640615446306]
……
获取 Alloc ID(TiKV StoreID)
在指定 alloc-id 时需指定一个比当前最大的 Alloc ID 更大的值。可以从中控机使用 ansible ad-hoc,也可以直接去服务器上翻日志。
从 pd 日志获取 [info] allocates id
ansible -i inventory.ini pd_servers -m shell -a 'cat {{deploy_dir}}/log/pd* | grep "allocates" | head -10'
10.0.1.13 | CHANGED | rc=0 >>
[2019/10/15 03:15:05.824 +00:00] [INFO] [id.go:91] ["idAllocator allocates a new id"] [alloc-id=3000]
[2019/10/15 08:55:01.275 +00:00] [INFO] [id.go:91] ["idAllocator allocates a new id"] [alloc-id=4000]
……
集群 IP 地址变更
停止集群
停止现有集群
ansible-playbook stop.yml
变更集群服务器 ip 地址
略
编辑 inevntory.ini 文件
编辑 inventory.ini 文件,修改 host ip
cp inventory.ini inventory.ini.bak
vi inventory.ini
清除之前的 PD 数据
备份并清理原有 PD Server 的数据
ansible -i inventory.ini pd_servers -m shell -a 'mv {{deploy_dir}}/data.pd/ {{deploy_dir}}/data.pd.bak/'
ansible -i inventory.ini pd_servers -m shell -a 'rm -rf {{deploy_dir}}/data.pd'
部署新 IP 地址的集群
ansible-playbook deploy.yml
恢复 PD 设置
.../tidb-ansible/resource/bin/pd-ctl -u http://{pdip}:2379 -d config set xxx xx
PD Recover 恢复旧集群信息
启动新 PD 集群
ansible-playbook start.yml --tags=pd
使用 pd-recover
使用 pd-recover 按照旧的 -cluster-id、-alloc-id 恢复 pd 集群信息
./pd-recover -endpoints http://{pdip}:2379 -cluster-id 6747551640615446306 -alloc-id 10000
重启 pd 集群
ansible-playbook rolling_update.yml --tags=pd
启动集群
启动剩余服务
ansible-playbook start.yml --skip-tags=pd
滚动监控
更新监控信息
ansible-playbook rolling_update_monitor.yml --tags=prometheus
常见问题
获取 Cluster ID 时发现有多个
新建 PD 集群时,会生成新的 Cluster ID。可以通过日志判断旧集群的 Cluster ID。
执行 pd-recover 时 dial tcp 10.0.1.13:2379: connect: connection refused
执行 pd-recover 时需要 pd 提供服务,请先部署并启动 pd 集群。
网友评论