

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# PCS で Slurm を使用してコンピューティングノードを再起動 AWS する
<a name="slurm-reboot-procedure"></a>

Slurm のネイティブ再起動コマンドを使用して、EC2 インスタンス容量を失うことなく、パフォーマンスの問題を解決したり、リソースの問題をクリアしたり、パフォーマンスが低下している状態から回復したりできます。

## 前提条件
<a name="slurm-reboot-procedure-prerequisites"></a>
+ Slurm 管理者権限 (ルートユーザーアクセス)
+ PCS AWS クラスター内のログインノードへのアクセス

## 手順
<a name="slurm-reboot-procedure-steps"></a>

1. EC2 コンソールを使用してログインノードに接続します。

   1. EC2 コンソールで、[**Instances**] を選択します。

   1. ログインノードインスタンスを選択します。

   1. **接続** を選択します。

1. `sinfo` または を使用して、ターゲットコンピューティングノード名を特定します`scontrol show node`。

   ```
   sinfo
   # or
   scontrol show node
   ```

1. 次のいずれかのオプションを使用して、再起動コマンドを実行します。
**警告**  
`scontrol reboot` コマンド`nextstate=DOWN`で を使用しないでください。このパラメータはノードを異常としてマークし、インスタンスの置き換えをトリガーします。
   + 基本的な再起動 (ノードがアイドル状態になるまで待機):

     ```
     scontrol reboot {{nodename}}
     ```
   + 即時再起動 (ノードをドレインし、ジョブが完了すると再起動):

     ```
     scontrol reboot ASAP {{nodename}}
     ```
   + 理由を指定して再起動します。

     ```
     scontrol reboot ASAP reason="troubleshooting" {{nodename}}
     ```
   + 再開状態で再起動します。

     ```
     scontrol reboot ASAP nextstate=RESUME {{nodename}}
     ```

1. を使用して再起動の進行状況をモニタリングします`scontrol show node`。

   ```
   scontrol show node {{nodename}}
   ```

1. 再起動の完了後にノードがサービスに戻ることを確認します。