美文网首页
出问题了:qsub提交任务后一直处于Q状态

出问题了:qsub提交任务后一直处于Q状态

作者: 守望一株麦穗 | 来源:发表于2022-09-16 22:44 被阅读0次

    环境:在SLES10SP4环境下。torque-4.2.5+maui-3.3.1
    问题描述1:qsub 提交任务后,任务状态一直为Q状态,死活切换不到R状态。
    尝试使用qrun强行运行
    ····

    qrun 33.node22
    提示信息出现:
    未授权的操作
    原因是用户不是管理员账号,没有直接运行qrun的权限。
    

    再后来,将用户添加到qmgr管理员后,

    qmgr -c ' set server managers += user@*'
    再次运行qrun,
    命令可以正常运行了,但依然无法调用。
    

    查看了日志文件
    */server_log/20220917
    */mom_log/20220917

    依然没有找到问题所在。

    在配置环境过程中,
    ./configure --prefix=/usr/local/torque --with-default-server=node22

    因此torque的安装目录为/usr/local/torque/
    而/usr/local/torque/bin/目录下存放着以下内容


    image.png

    默认情况下/var/spool/torque存在着以下目录内容


    image.png

    如果尝试了多种方法,依然解决不了qsub提交任务为Q状态,

    最后考虑重装一下maui,或许就能解决(我的问题就是这样解决的), 在配置过程中,要注意一点,指定torque的安装目录:

    ./configure --prefix=/usr/local/maui --with-pbs=/usr/local/torque
    
    make -j4
    
    make install
    

    更改之后,如果出现一下画面,说明pbs_server运行正常。


    image.png

    如果出现
    pbsnodes没有node list ,让你检查server_priv/nodes文件。
    但你确认nodes文件已经设置好了,说明没有读入内存,将
    /etc/init.d/trqauthd
    /etc/init.d/pbs_server
    /etc/init.d/mom
    重启一下,或许就可以了。

    #######################
    后记,写的有点乱。解决问题毫无章法。
    总结起来就1点。
    如果出现qsub提交任务为Q,一般是在集群异常停电,或者其他异常情况。问题在于maui与pbs_server和pbs_mom配合出现了问题。
    如果是新装电脑,重点看qmgr -c 'print server'里面的配置,
    如果之前正常,中间意外情况导致不正常,重装maui或许可以快速解决这个问题。

    摸索尝试了2-3天才解决,感觉好笨。希望其他人可以少走点弯路吧。

    相关文章

      网友评论

          本文标题:出问题了:qsub提交任务后一直处于Q状态

          本文链接:https://www.haomeiwen.com/subject/afgeortx.html