美文网首页
为什么我的虚拟机热迁移那么慢?原来热迁移速度跟这两个因素息息相关

为什么我的虚拟机热迁移那么慢?原来热迁移速度跟这两个因素息息相关

作者: 运维少年 | 来源:发表于2023-02-09 16:12 被阅读0次

一、虚拟机迁移类型

虚拟机迁移一共有两种类型,分别是冷迁移和热迁移。冷迁移需要在虚拟机关机状态下进行,所以冷迁移会中断业务;热迁移支持虚拟机在开启状态下进行迁移,迁移过程中用户基本无感知(非绝对)。

1.1 冷迁移

冷迁移流程大致可以分为两个步骤,一是迁移,二是确认。冷迁移和resize是一样的流程。大致流程如下(以共享存储为例,如果是本地磁盘,则增加拷贝磁盘到目标主机的步骤):

1)对虚拟机的状态进行校验,只有虚拟机为ACTIVE和STOP状态才能进行冷迁移。

2)选择目标节点,对目标节点的资源进行预占

3)源主机停止虚拟机,断开与存储的连接,拷贝虚拟机配置文件

4)目标主机挂载存储,创建虚拟机

5)迁移成功后,释放源主机上的资源

6)(可选)如在Active状态下进行了冷迁移,迁移完成后会更新虚拟机状态为Active

冷迁移的约束:

1)VM 必须在迁移前处于 ACTIVE 或 STOPPED 状态

2)计算节点必须配置SSH互信并相互连接

1.2 热迁移

虚拟机热迁移,是将一个运行状态的虚拟机,在不影响其正常运行状态的前提下,将其迁移到另一个物理主机上运行。其大致流程如下(以共享磁盘为例):

1)对虚拟机的状态进行校验,虚拟机为ACTIVE状态才能进行热迁移。

2)选择目标节点,对目标节点的资源进行预占

3)迁移虚拟机

    • 迁移前准备:目标主机检查资源是否具备迁移条件(网络、存储、镜像、CPU topo等)

    • 迁移中:

      • 源主机:将内存信息拷贝到目标主机,达到一定条件后触发事件,暂停虚拟机。

      • 目标主机:在源主机拷贝数据的过程中启动虚拟机(暂停状态),待源主机停止虚拟机后,目标主机恢复虚拟机。

    • 迁移后:

      • 目标主机:获取虚拟机的XML信息,创建虚拟机qemu路径,生成虚拟机XML文件

      • 源主机:停止虚拟机,断开虚拟机的网络,删除源主机的虚拟机文件。

Tips:在一般情况下,虚拟机热迁移用户无感知,但在一些比较敏感的情况下,热迁移时会有IP地址冲突、NTP时间偏移等告警出现。虽说可能是毫秒甚至是微秒级别的暂停,有些程序依旧能感知到。

二、影响虚拟机热迁移的参数

2.1 带宽

带宽对热迁移至关重要,很大程度上决定了热迁移的速度。云环境的计算节点至少具备10GB及以上的迁移带宽,在vmware的解决方案中,可以给热迁移单独规划一个网络平面,提高迁移的可靠性。在华为FusionSphere OpenStack运营商的解决方案中,热迁移使用管理平面网络,通常为Physnet1。

华为FusionSphere OpenStack可以为热迁移进程进行限速,避免由于热迁移占满带宽影响其它虚拟机业务。

    • 配置路径1:cps > 配置 > openstack > nova,配置热迁移带宽,默认500M,设置为0即为不限制

    • 配置路径2:cps > 配置 > 多网元管理 > nova

如果在迁移过程中发现速率远远低于物理带宽,可以登录到CPS查看相关配置,或者排查是否有网络丢包。

    • 查看迁移速率

# 登录到源主机
virsh domjobinfo <domain_id>

例如:

[root@openstack-con03 ~]#virsh domjobinfo 323

Job type:         Unbounded  

Operation:        Outgoing migration

Time elapsed:     139135       ms

Data processed:   15.146 GiB

Data remaining:   6.812 MiB

Data total:       4.016 GiB

Memory processed: 15.146GiB

Memory remaining: 6.812 MiB(剩余脏页内存)

Memory total:     4.016 GiB(总内存)

Memory bandwidth: 107.902MiB/s(迁移速率)

Dirty rate:       34398        pages/s

Iteration:        2247       

Constant pages:   950532     

Normal pages:     3960697    

Normal data:      15.109 GiB

Expected downtime:1240         ms

Setup time:       50           ms
    • 查看带宽限制的两种方法

      • 在CPS界面查看

      • 查看nova-compute配置文件

# 登录到任意计算节点
cat nova-compute.conf | grep live_migration_bandwidth 
    • 查看丢包:ping测试

2.2 脏页速率

首先热迁移过程中虚拟机是不停机的,所以会不断有业务程序产生新的数据,这部分数据我们称为脏页数据,脏页数据和网络带宽对热迁移的速度起到了决定性的作用。

用以下命令查看脏页速率,second建议设置为1,检查3次。

 
# 登录源主机
virsh getdirtyrate <domain_id>

如果脏页速率大于迁移带宽,那么迁移将无法完成。按照我们的经验,在10GB环境下,如果脏页速率大于400Mb/s,不建议热迁移,建议冷迁移。

当脏页速率大于迁移带宽且迁移时间过长时,可能会造成以下影响:

1)长时间占用主机资源,虚拟机长时间处于中间态。

2)如果开启了降频技术,由于网络带宽不足,长期降频会导致虚拟机出现卡顿和ping延迟现象。

# 查看自动降频是否开启,如果有则表示开启
cat nova-compute.conf | grep VIR_MIGRATE_AUTO_CONVERGE

华为FusionSphere OpenStack支持设置热迁移超时时间,可以根据业务需求进行设置,设置入口与带宽限制入口一致,超时后迁移任务失败退出。

也可以自行取消热迁移任务,有两种方法:

#方法1:登录任意节点,导入环境变量
## 查询迁移任务ID
nova migration-list | grep <虚拟机uuid>
## 使用nova命令取消迁移任务
nova live-migration-abort <虚拟机uuid> <迁移任务ID>
#方法2:登录源主机后台,取消任务virsh domjobabort <虚拟机uuid>
我是运维少年,欢迎关注的我同名公众号~

相关文章

  • 2019-05-21 kvm虚拟机热迁移

    kvm虚拟机热迁移 热迁移描述:相比KVM虚拟机冷迁移中需要拷贝虚拟机虚拟磁盘文件,kvm虚拟机热迁移无需拷贝虚拟...

  • KVM虚拟机核心组件介绍-virt-manager

    virt-manager和kvm虚拟机热迁移(共享的网络文件系统) 冷迁移kvm虚拟机:配置文件,磁盘文件 热迁移...

  • kube-ovn kube-virt 虚拟机热迁移的实现

    虚拟机热迁移要求虚拟机的主网卡是masquerade,其他网卡可以是bridge模式,也可以是其他模式 在热迁移过...

  • OpenStack 热迁移失败

    背景 今日需要对几台虚拟机进行热迁移,在迁移时失败,经过查看 nova 日志发现以下报错信息: 通过上面的报错信息...

  • CRIU的热迁移

    服务器-电脑一:192.168.229.134客户端-电脑二:192.168.229.133 两台电脑的操作系统选...

  • zookeeper 在线热迁移

    zookeeper 在线扩容 目标:扩容过程中,zookeeper 集群对外提供服务正常 当前集群状态 集群...

  • nova 热迁移失败

    修改代码:鉴于compute机器都是同一种类型,所以肯定是可以热迁移的,后来参考是代码有问题 nova.nova....

  • docker容器热迁移

    系统环境 ubuntu 18.04docker(我的version 是docker-ce 20.10.14) 安装...

  • 5. ActiveMQ平滑迁移到kafka

    直入主题,不讨论为什么迁移,直接谈迁移方案。 既然是从AMQ(AtiveMQ的简称)迁移到kafka,那么迁移过程...

  • kafka集群维护

    【kafka集群维护】 【kafka集群分区日志迁移】(热部署)迁移topic数据到其他broker,请遵循下面四步:

网友评论

      本文标题:为什么我的虚拟机热迁移那么慢?原来热迁移速度跟这两个因素息息相关

      本文链接:https://www.haomeiwen.com/subject/flhhkdtx.html