美文网首页
slurm分区,节点,作业信息说明

slurm分区,节点,作业信息说明

作者: 云养江停 | 来源:发表于2022-09-16 09:51 被阅读0次

1. 节点状态查看

命令:

sinfo
sinfo
PARRITION:节点所在分区
AVAIL:分区状态,up 标识可用,down 标识不可用
TIMELIMIT:程序运行最大时长,infinite 表示不限制,如果限制格式为 days-houres:minutes:seconds
NODES:节点数
NODELIST:节点名列表

STATE:节点状态,可能的状态包括:
allocated、alloc :已分配
completing、comp:完成中
down:宕机
drained、drain:已失去活力
fail:失效
idle:空闲
mixed:混合,节点在运行作业,但有些空闲 CPU 核,可接受新作业
reserved、resv:资源预留
unknown、unk:未知原因
如果状态带有后缀 *,表示节点没有响应

2.分区信息查看

命令

show partition
show partition
说明:
DisableRootJobs: 不允许 root 提交作业
Maxtime:最大运行时间
LLN:是否按最小负载节点调度
Maxnodes:最大节点数
Hidden:是否为隐藏分区
Default:是否为默认分区
OverSubscribe:是否允许超时
ExclusiveUser:排除的用户

3. 节点信息查看

命令

scontrol show node
scontrol

说明:

NodeName    节点名称
Arch    系统架构
CoresPerSocket   
CPUAlloc    分配给的 CPU 核数
CPUErr  出错的 CPU 核数
CPUTot  总的 CPU 核数
CPULoad CPU 负载
AvailableFeatures   可用特性
ActiveFeatures  激活的特性
Gres    通用资源
NodeAddr    节点 IP 地址
NodeHostName    节点名
Version SLURM 版本
OS  操作系统
RealMemory  实际的物理内存,单位 GB
AllocMem    已分配的内存,单位 GB
FreeMem 可用内存,单位 GB
Sockets  
Boards  主板数
State   节点状态
ThreadsPerCore  CPU 线程数
TmpDisk 临时硬盘存储大小
Weight  权重
Owner    
MCS_label    
Partitions   
BootTime    开机实际
SlurmdStartTime SLURM 守护进程启动时间
CfgTRES  
AllocTRES    
CapWatts     
CurrentWatts     
LowestJoules     
ConsumedJoules   
ExtSensorsJoules     
ExtSensorsWatts  
ExtSensorsTemp   
Reason   

4. 作业信息查看

squene
image.png
JOBID:作业号
PARITION:分区名
NAME:作业名
USER:用户名

ST:状态,常见的状态包括:
PD、Q:排队中 ,PENDING
R:运行中 ,RUNNING
CA:已取消,CANCELLED
CG:完成中,COMPLETIONG
F:已失败,FAILED
TO:超时,TIMEOUT
NF:节点失效,NODE FAILURE
CD:已完成,COMPLETED

相关文章

网友评论

      本文标题:slurm分区,节点,作业信息说明

      本文链接:https://www.haomeiwen.com/subject/lrgrortx.html