关注N5105小主机有一段时间了,与在用的J4125相比,同等的功耗,性能提升30%,价格仅比j4125贵一点,性价比是相当亮眼的,用来做边缘计算和学习是不错的选择,因此刚上市我就立即入手了一台。可没想到的是性能上去了,稳定性却下来了,虚拟机不定期的宕机,刚开始以为是兼容性的问题。在宿主机上安装esxi或PVE虚拟化系统,使用不同操作系统的虚拟机,问题依旧,后台一直报"客户机操作系统已禁用该CPU,请关闭电源或重置虚拟机"。查了很多资料都找不到问题所在,只能靠人工对虚拟机进行重启操作。本来高性能的小主机瞬间沦为鸡肋,食之无肉,弃之有味。
思来想去,宕机的问题既然无法解决,那么就折衷一下,减少人工操作,采用自动化运维的思路实现虚拟机的自动监控和重启。在网上一搜,果然有管理vSphere的python工具包pyVmomi,不用重新造轮子了。第一步,与esxi建立连接,获取宿主机的信息;第二步,获取要监控的虚拟机信息,对虚拟机的存活状态进行检测,如果状态为“notRunning",意味着虚拟机已经宕机;第三步,利用netmiko库远程登录esxi主机,查找虚拟机ID号,并向虚拟机发出重启指令,这里用到了网络配置解析利器TextFSM,将获取到的虚拟机信息进行格式化,TextFSM模板和代码如下:
######### esxi_get_vm.textfsm #############
Value Required Vmid (\S+)
Value Required Name (\S+)
Start
^${Vmid}\s+${Name} -> Record
#####脚本需要安装的python库#######
# pip install pyvim==0.0.21 pyvmomi==6.7.1 netmiko
###############################
from pyVmomi import vim
from pyVim.connect import SmartConnectNoSSL
from netmiko import ConnectHandler
import datetime
class VsphereManage(object):
"""
Vsphere管理类
"""
def __init__(self, host, user, password, port, ssl):
self.host = host
self.user = user
self.password = password
self.port = port
self.ssl = ssl
try:
self.client = SmartConnectNoSSL(host=host, user=user, pwd=password, port=port)
self.content = self.client.RetrieveContent()
self.result = True
except Exception as e:
self.result = False
self.message = e
def reset_vm():
"""
登录宿主查找虚拟机的ID号,重启虚拟机
:return:
"""
dev = {'device_type': 'generic',
'host': '192.168.1.12',
'username': 'root',
'password': '123',
'port': 22
}
with ConnectHandler(**dev) as conn:
get_vms_cmd = 'vim-cmd vmsvc/getallvms'
result = conn.send_command(get_vms_cmd, use_textfsm=True, textfsm_template='esxi_get_vm.textfsm')
for vm in result:
vm_name = vm.get('name')
if vm_name == 'Debian10':
vmid = vm.get('vmid')
reset_vm_cmd = 'vim-cmd vmsvc/power.reset %s' % vmid
conn.send_command(reset_vm_cmd)
print("虚拟机复位成功")
if __name__ == '__main__':
ip = '192.168.1.12'
user = 'root'
password = '123'
port = 443
vms = VsphereManage(host=ip, user=user, password=password, port=port, ssl=None)
current_date = datetime.datetime.now()
if vms.result:
container = vms.content.viewManager.CreateContainerView(vms.content.rootFolder, [vim.VirtualMachine, ], True)
for vm in container.view:
if vm.name == 'Debian10':
# 获取虚拟机的运行状态
if vm.guest.guestState == 'notRunning':
print("虚拟机宕机,进行复位!巡检时间:%s" % current_date.strftime("%Y-%m-%d %H:%M:%S"))
reset_vm()
else:
print('虚拟机运行正常!巡检时间:%s' % current_date.strftime("%Y-%m-%d %H:%M:%S"))
else:
print(vms.message)
最后,把脚本加入到操作系统的计划任务中周期性执行,在这里我使用的系统是Ubuntu,只需将任务加入到crontab中就OK了。自动化运维无处不在,这是我针对自己的场景实现的一个需求,大家可以在这个案例的基础上举一反三,比如维护一个大型的vSphere集群,我们要获取主机信息,虚拟机信息,存储信息,网络信息,使用自动化脚本的效率是远远超过图形化界面的。
网友评论