PCS で Slurm を使用してコンピューティングノードを再起動 AWS する - AWS PCS

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

PCS で Slurm を使用してコンピューティングノードを再起動 AWS する

Slurm のネイティブ再起動コマンドを使用して、EC2 インスタンス容量を失うことなく、パフォーマンスの問題を解決したり、リソースの問題をクリアしたり、パフォーマンスが低下している状態から回復したりできます。

前提条件

  • Slurm 管理者権限 (ルートユーザーアクセス)

  • PCS AWS クラスター内のログインノードへのアクセス

手順

  1. EC2 コンソールを使用してログインノードに接続します。

    1. EC2 コンソールで、[Instances] を選択します。

    2. ログインノードインスタンスを選択します。

    3. 接続 を選択します。

  2. sinfo または を使用して、ターゲットコンピューティングノード名を特定しますscontrol show node

    sinfo # or scontrol show node
  3. 次のいずれかのオプションを使用して、再起動コマンドを実行します。

    警告

    scontrol reboot コマンドnextstate=DOWNで を使用しないでください。このパラメータはノードを異常としてマークし、インスタンスの置き換えをトリガーします。

    • 基本的な再起動 (ノードがアイドル状態になるまで待機):

      scontrol reboot nodename
    • 即時再起動 (ジョブが完了するとノードがドレインされ再起動されます)。

      scontrol reboot ASAP nodename
    • 理由を指定して再起動します。

      scontrol reboot ASAP reason="troubleshooting" nodename
    • 再開状態で再起動します。

      scontrol reboot ASAP nextstate=RESUME nodename
  4. を使用して再起動の進行状況をモニタリングしますscontrol show node

    scontrol show node nodename
  5. 再起動の完了後にノードがサービスに戻ることを確認します。