AWS PCS での Slurm を使用したコンピューティングノードの再起動 - AWS PCS

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS PCS での Slurm を使用したコンピューティングノードの再起動

AWS PCS は Slurm のネイティブscontrol rebootコマンドをサポートします。EC2 インスタンスを置き換えずにコンピューティングノードを再起動するには、このコマンドを使用します。その他の再起動方法 (Amazon EC2 コンソール、 AWS CLI、自動パッチ、またはシステムメンテナンス) では、PCS AWS は EC2 インスタンスを異常と見なして置き換えます。

Slurm の再起動の利点

Slurm を再起動すると、クラスターのメンテナンスにいくつかの利点があります。

  • キャパシティーを維持する – キャパシティーに制約のある EC2 インスタンスを他の顧客に失わないようにします。

  • コストの削減 – 不要なインスタンス交換サイクルとアイドルノードの継続的な請求を排除します。

  • 復旧の迅速化 – インスタンスの置き換えと比較してプロビジョニングの遅延はありません。

  • 運用上の柔軟性 – メモリリークのクリア、一時ファイルの削除、ノードの劣化状態からの復旧を行います。

Slurm 再起動を使用するタイミング

一般的な運用メンテナンスシナリオでは、Slurm の再起動を使用します。

  • トラブルシューティング — 特に GPU ノードのパフォーマンスの問題や応答しないプロセスを解決します。

  • リソースのクリーンアップ — メモリリーク、 の一時ファイル/tmp、またはジョブのパフォーマンスに影響するプロセスのスタックをクリアします。

  • 復旧 — 完全なノード交換が必要になる前に、ハング状態またはデグレード状態からノードを復旧します。

制限事項

  • 再起動コマンドを実行できるのは、Slurm 管理者ユーザー (ルートユーザー) のみです。

  • 再起動のサポートは scontrol rebootのみに制限されています。

  • RebootProgram 設定はサポートされていません。

  • コンソールインターフェイスなし – コマンドラインのみ。