美文网首页
HPC集群使用记录

HPC集群使用记录

作者: _nnnoOooM | 来源:发表于2018-09-28 11:05 被阅读0次

使用PBS(Torque集群管理软件,http://docs.adaptivecomputing.com/torque/4-1-4/help.htm#topics/commands/qmgr.htm)和maui调度软件

公司目前集群共包含4台计算节点(512集群+2T内存),可用存储空间460TB

1.命令提交

#!/bin/sh

#PBS -N JOB 指定作业名称
#PBS -l nodes=2:ppn=8,vmem=80m  节点数量以及所要的核数(示例为2节点*8核)
#PBS -o %JOBID.out 指定作业完成后的输出文件
#PBS -e %JOBID.err 指定作业出现错误的输出文件
#PBS -l walltime=120:00:00 作业处于运行状态的最长时间
#PBS -q batch 指定作业队列
#PBS -m abe 发送邮件参数(n:不发送邮件;a:作业被批处理系统中断时;b: 作业开始执行时;e:作业执行结束时)
#PBS -M YYY@simceredx.com 邮件列表

PBS -l 指定作业所需要的资源,设定对可消耗资源的限制 :

  cput: 作业的所有进程使用cpu最长时间
  file:作业可以建立单个文件大小的最大限制
  pcput:作业的单个进程可以使用CPU的最长时间
  pmem:作业的单个进程可以使用的物理内存的最大值
  pvmem:作业的单个进程可以使用的虚拟内存的最大值
  vmem:作业可以使用的物理内存的最大值
  walltime:作业处于运行状态的最长时间
  arch:指定系统管理员所定义的系统结构类型
  nodes:指定作业独占使用的节点数目和属性,使用“+”可连接多种节点定义;缺省为1;ppn每个节点上的进程数,缺省1
  ncpus : 请求cpu数量

2.状态查询

qstat -a 已经提交的作业状态信息
qstat -q 节点池状态 (C:作业完成;E:作业退出;H:作业挂起中; Q:作业排队中; T:作业被移走;W:作业等待中;S:作业中断)
qstat -f 4016.manage1 作业的详细信息
qstat -n 查看任务信息(含所在节点信息)
  1. 作业操作
qhold           ##挂起作业,排队状态中的作业,运行中不能挂起
qrls              ##释放挂起的作业
qalter           ##更改作业属性
qdel             ##删除作业
qsub -l nodes=node01,mem=200mb /home/user/script.sh  ##指定node01,直到有需要的资源
mjobctl -s 4127     ##暂停作业
mjobctl -r  4127    ##恢复作业
setspri  优先值  JOBID�    ##表示将JOBID的任务的优先值修改为现在的优先值,优先值在0-1000之内
setspri  -r 优先值  JOBID�  ##这样表示在现有的优先值的基础上加上或者减去指定的优先值,优先值的范围在+/- 1000000000
Torque中的命令:�qalter -p 优先值 JOBID�  ##表示将JOBID的优先值设置为指定的优先值,优先值的范围在-1024~1023
mjobctl -s 82   ##maui 暂停作业状态,插入后续Q作业,如无后续作业,状态自动转为R
mjobctl –r 82   ##resume job

相关文章

  • HPC集群使用记录

    使用PBS(Torque集群管理软件,http://docs.adaptivecomputing.com/torq...

  • SJM HPC-SGE 投递任务管理工具简介

    HPC-SGE环境下的任务投递方式   HPC指的是高可用计算集群,是相对于单机服务或节点而言的,通过节点或集群间...

  • 集群理解

    集群的分类:一般来讲,集群分为三大类:高性能集群(High performance cluster,HPC)、负载...

  • 【bioHPC-1】用Vagrant创建虚拟集群

    高性能计算(High Performance Computing,HPC)集群, 简称集群,是将多个计算机节点用高...

  • 集群SGE作业调度系统

    0. 一些基本概念 计算机集群:高性能集群(High Performance Computing,简称HPC)是一...

  • HPC 编译 FaSTMM

    工作需要在 HPC 集群上编译 FaSTMM[https://bitbucket.org/planetarysys...

  • Z_HPC_集群

    1集群 1.1什么是集群 简单的说,集群(cluster)就是一组计算机,它们作为一个整体向用户提供一组网络资源。...

  • HPC集群平台搭建

    step 0 : 在每一台机子上安装openmpi 以两台电脑为例,现在在两台电脑上都安装好了Ubuntu19.0...

  • galera集群

    集群分类:(面试题) 高可用 负载均衡 HPC 高性能计算 分布式集群 分布式文件系统(分布式存储) mysql官...

  • ActiveMQ学习-集群配置

    ActiveMQ集群方案 本人最近使用VM搭建ActiveMQ集群成功了,写篇文章记录下。集群方案介绍。 Mast...

网友评论

      本文标题:HPC集群使用记录

      本文链接:https://www.haomeiwen.com/subject/evpuoftx.html