kuroの覚え書き

96の個人的覚え書き

TORQUEで計算ノードからヘッドノードへoutput/errorが返せない

Unable to copy file /var/lib/torque/spool/147.HostA.OU to quser@HostA:/home/quser/test.sh.o147, error 1
*** error from copy
Host key verification failed.
lost connection
*** end error output
Output retained on that host in: /var/lib/torque/undelivered/147.HostA.OU

こんな感じのエラーメールが返ってきて、test.sh.o147が出力されない。

sshの鍵認証が必要なのかなとかいろいろ悩んだが
https://naozoblog.blogspot.com/2007/02/torque.html
こちらに解決策が。

ヘッドノードの/homeを計算ノードの/homeにマウントしているので
計算ノードの
/var/lib/torque/mom_priv/config

$usecp *:/home /home

を追記してpbs_momを計算ノードで再起動してやる。

これでエラーなく走り切るようになった。