1.专题说明
本文介绍虚拟机生命周期相关流程基本问题,定位以及相关典型案例
目的:通过对本文学习,了解虚拟机生命周期基本流程,掌握基本问题的定位方法。
2.产品规格
2.1概述产品规格说明和限制
1.虚拟机规格
指标名称(单个vm支持的) | 指标值 |
---|---|
VCPU数量 | 64个 |
网卡数量 | 8个 |
卷数量 | 11个 |
内存容量 | 1 TB |
共享卷数量 | 4个 |
卷规格 | 虚拟化存储(除本地存储)、NAS存储:64TB SAN存储:30TB Advanced SAN存储、虚拟化磁盘、本地硬盘:2TB |
2.集群内迁移中的虚拟机最多只能40个,单个CAN节点迁入迁出总和最多8个。
3.迁移条件
硬件:主机CPU:CPU:Intel或AMD的64位CPU,CPU支持硬件虚拟化技术,如同一集群内计算节点CPU型号和flags必须一致。
软件:1.源主机和目的主机必须连接同一个Datastore。
2.虚拟机所属的DVS上行链路主机列表中须包含目的主机。
4.Pending数
操作名称 | Pending数量 |
---|---|
创建vm | 50 |
启动vm | 50 |
vm ha | 50 |
停止vm | 20 |
重启vm | 60 |
删除vm | 20 |
迁移vm | 25 |
休眠vm | 120 |
克隆vm | 50 |
模板导入 | 200 |
备份vm | 200 |
恢复vm | 200 |
主机 | 200 |
3.定位思路
3.1常见问题定位流程
3.1.1
1.虚拟机创建失败
1)主机链路终端导致创建磁盘失败
2)主机隔离或者处于维护状态,导致没有可用的资源
3)计算资源不足
4)存储资源不足
2.虚拟机热迁移失败
1)计算资源不足
2)主机CPU型号和flags不一致
3.模板导入虚拟机失败
1)网络闪断
2)已共享虚拟机模板文件,并能被“FusionCompute”访问。共享名称与模板文件所在文件夹名称保持一致。
3)已关闭模板文件所在服务器的防火墙
4)确认对应本机的交换机端口中不设置ACL规则,保证主机与本机网络互通
3.1.2通用问题定位流程
1.故障居点物理信息收集
需主要关注:故障局点解决方案类型与版本、组网信息、硬件信息(服务器厂家型号、交换机厂家型号、存储厂家型号)。
2.故障时间点、相关操作记录收集
向一线确认问题产生的时间点,并且了解故障时间点前后的操作(主要了解是否有中断业务的操作:如服务器掉电等)
3.问题现象收集
在客户授权的前提下,有条件的可以通过远程查看问题现象,不具备远程条件的,可以通过电话描述,邮件截图,根据问题现象分析可能的原因。
4.收集 VRM节点的日志信息
VRM是FusionCompute所有业务的入口,因此所有的错误信息总能在VRM的日志中找到蛛丝马迹,根据前面收集到的信息找出日志信息。
5.根据VRM日志的分析结果,收集CNA节点的日志信息
CNA节点承载着诸多业务功能,如挂创建虚拟机、创建磁盘、挂载磁盘等操作,它是业务动作的“执行者”,CNA日志中能够查询到业务详细的处理流程。
6.远程定位问题
有些顽固问题,根据日志无法分析出原因,这样只能将可能的原因一一列出,通过远程操作的方式一一排除。
Panding值是啥意思,在特殊场景(比如:poc)场景下如何修改VRM上的pending值?
为了做到流控,防止过度操作影响虚拟性能。
pending其实就是一些虚拟的资源,做特定操作前先去申请对应的pending虚拟资源,能申请到才能 进行操作,否则不能进行操作。
例如:数据copy操作由于比较耗费性能,一般不允许多个copy任务同时进行,则通过pending可以进行限制如下:
数据copy的总pending资源是200;
copy操作需要申请120个pending资源,才能执行,则可保证只有一个copy操作运行;
其他copy操作需要运行时,由于申请不到足够的资源(200-120=80<120),因此无法执行。
2.如何修改pending值?
默认设置的pending最大值如下:
VM Task Pending Total
Max_Pending=200
修改方法如下:
1.分别登录到VRM主/备节点,切换到root用户;
2.使用编辑配置文件
vi /opt/galax/vrm/tomcat/webapps/ROOT/WEB-INF/classes/pendingconfig.properlies
3.在如下配置项的取值进行修改:
#VM Task Pending Total
Max-Pending=200
:wq
4.执行如下命令重启vrmd进程生效
service vrmd restart
2018-07-26
网友评论