kuroの覚え書き

96の個人的覚え書き

Slurmの計算ノードのSTATEがdownになったとき

Slurmを運用していて、原因不明で計算ノードが動かなくなった。
sinfoで確認すると

# sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
work*        up   infinite      1   idle kk3
work*        up   infinite      2   down kk4,kk5

みたいな感じ。
それぞれのノードでslurmdのステータスを確認しても

# systemctl status slurmd
● slurmd.service - Slurm node daemon
   Loaded: loaded (/usr/lib/systemd/system/slurmd.service; enabled; vendor pres>
   Active: active (running) since Sun 2024-01-07 11:33:23 JST; 1 weeks 1 days a>
 Main PID: 2023 (slurmd)
    Tasks: 1
   Memory: 5.3M
   CGroup: /system.slice/slurmd.service
           └─2023 /usr/sbin/slurmd -D

のようにactiveだ、と言われる。


対処法。
管理ノード(slurmctldの動いているノード)で

$ sudo scontrol update nodename=kk4 state=resume
$ sudo scontrol update nodename=kk5 state=resume

とする。