Slurmを運用していて、原因不明で計算ノードが動かなくなった。
sinfoで確認すると
# sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST work* up infinite 1 idle kk3 work* up infinite 2 down kk4,kk5
みたいな感じ。
それぞれのノードでslurmdのステータスを確認しても
# systemctl status slurmd ● slurmd.service - Slurm node daemon Loaded: loaded (/usr/lib/systemd/system/slurmd.service; enabled; vendor pres> Active: active (running) since Sun 2024-01-07 11:33:23 JST; 1 weeks 1 days a> Main PID: 2023 (slurmd) Tasks: 1 Memory: 5.3M CGroup: /system.slice/slurmd.service └─2023 /usr/sbin/slurmd -D
のようにactiveだ、と言われる。
対処法。
管理ノード(slurmctldの動いているノード)で
$ sudo scontrol update nodename=kk4 state=resume $ sudo scontrol update nodename=kk5 state=resume
とする。