美文网首页
TiDB 集群 IP 变更快速指南(离线变更)

TiDB 集群 IP 变更快速指南(离线变更)

作者: Kassadar | 来源:发表于2019-11-01 14:35 被阅读0次

    前言

    TiDB 集群 IP 变更可以通过先扩容再缩容的方式,实现在线的集群 IP 的迁移。

    此文档为离线变更操作手册。

    • TiDB Server 作为一个无状态服务。所以直接更换 IP 即可,同时修改 PD Server 地址。
    • TiKV Server 作为一个 Mutil Raft Group,信息会在 PD Server 中注册,所以直接更换 IP 即可,同时修改 PD Server 地址。
    • PD Server 作为一个元数据管理节点,更换 IP 后需要新建 PD 集群,然后进行 PD Recover 操作,恢复原有 PD 集群信息

    收集需要的信息

    新建 PD 集群后,现有的信息会丢失,因此需要些备份这些信息。

    获取 PD 中的设置
    .../tidb-ansible/resource/bin/pd-ctl -u http://{pdip}:2379 -d config show all > pd.txt
    

    其中常见的调整参数有 leader-scheduler-limit、region-scheduler-limit、leader-scheduler-limit 等。
    如果没有使用 pd-ctl 修改过默认配置,此步骤可跳过。

    获取 Cluster ID

    一般在 PD,TiKV 或 TiDB 的日志中都可以获取 Cluster ID。可以从中控机使用 ansible ad-hoc,也可以直接去服务器上翻日志。

    从 pd 日志获取 [info] cluster id

    ansible -i inventory.ini pd_servers -m shell -a 'cat {{deploy_dir}}/log/pd.log | grep "init cluster id" | head -10'
    
    10.0.1.13 | CHANGED | rc=0 >>
    [2019/10/14 10:35:38.880 +00:00] [INFO] [server.go:212] ["init cluster id"] [cluster-id=6747551640615446306]
    ……
    
    获取 Alloc ID(TiKV StoreID)

    在指定 alloc-id 时需指定一个比当前最大的 Alloc ID 更大的值。可以从中控机使用 ansible ad-hoc,也可以直接去服务器上翻日志。

    从 pd 日志获取 [info] allocates id

    ansible -i inventory.ini pd_servers -m shell -a 'cat {{deploy_dir}}/log/pd* | grep "allocates" | head -10'
    
    10.0.1.13 | CHANGED | rc=0 >>
    [2019/10/15 03:15:05.824 +00:00] [INFO] [id.go:91] ["idAllocator allocates a new id"] [alloc-id=3000]
    [2019/10/15 08:55:01.275 +00:00] [INFO] [id.go:91] ["idAllocator allocates a new id"] [alloc-id=4000]
    ……
    

    集群 IP 地址变更

    停止集群

    停止现有集群

    ansible-playbook stop.yml
    
    变更集群服务器 ip 地址

    编辑 inevntory.ini 文件

    编辑 inventory.ini 文件,修改 host ip

    cp inventory.ini inventory.ini.bak
    
    vi inventory.ini
    
    清除之前的 PD 数据

    备份并清理原有 PD Server 的数据

    ansible -i inventory.ini pd_servers -m shell -a 'mv {{deploy_dir}}/data.pd/ {{deploy_dir}}/data.pd.bak/'
    
    ansible -i inventory.ini pd_servers -m shell -a 'rm -rf {{deploy_dir}}/data.pd'
    
    部署新 IP 地址的集群
    ansible-playbook deploy.yml
    
    恢复 PD 设置
    .../tidb-ansible/resource/bin/pd-ctl -u http://{pdip}:2379 -d config set xxx xx
    

    PD Recover 恢复旧集群信息

    启动新 PD 集群
    ansible-playbook start.yml --tags=pd
    
    使用 pd-recover

    使用 pd-recover 按照旧的 -cluster-id、-alloc-id 恢复 pd 集群信息

    ./pd-recover -endpoints http://{pdip}:2379 -cluster-id 6747551640615446306 -alloc-id 10000
    
    重启 pd 集群
    ansible-playbook rolling_update.yml --tags=pd
    

    启动集群

    启动剩余服务

    ansible-playbook start.yml --skip-tags=pd
    

    滚动监控

    更新监控信息

    ansible-playbook rolling_update_monitor.yml --tags=prometheus
    

    常见问题

    获取 Cluster ID 时发现有多个

    新建 PD 集群时,会生成新的 Cluster ID。可以通过日志判断旧集群的 Cluster ID。

    执行 pd-recover 时 dial tcp 10.0.1.13:2379: connect: connection refused

    执行 pd-recover 时需要 pd 提供服务,请先部署并启动 pd 集群。

    相关文章

      网友评论

          本文标题:TiDB 集群 IP 变更快速指南(离线变更)

          本文链接:https://www.haomeiwen.com/subject/ncpfbctx.html