AWS PCS の Slurm バージョンに関するよくある質問 - AWS PCS

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS PCS の Slurm バージョンに関するよくある質問

AWS PCS は、複数の Slurm バージョンのサポートを維持します。新しい Slurm バージョンが導入されると、 AWS PCS は、そのバージョンが SchedMD からサポート終了 (EOS) に達するまでテクニカルサポートとセキュリティパッチを提供します。 AWS PCS は AWS 、用語と一致するように Slurm バージョンの EOS 日をサポート終了 (EOL) と呼びます。

PCS AWS は Slurm バージョンをどのくらいの期間サポートしていますか?

AWS Slurm バージョンの PCS サポートは、SchedMD のメジャーバージョンのサポートサイクルと一致しています。 AWS PCS は、現在のバージョンと最新の 2 つのメジャーバージョンをサポートしています。SchedMD が新しいメジャーバージョンをリリースすると、 AWS PCS はサポートされている最も古いバージョンのサポートを終了します。 AWS PCS はできるだけ早く Slurm の新しいメジャーバージョンをリリースしますが、SchedMD のリリースと PCS AWS での可用性の間に遅延が生じる可能性があります。

クラスターで新しい Slurm パッチバージョンのリリースを取得するにはどうすればよいですか?

バグとセキュリティ修正に対処するために、 AWS PCS は内部サービス所有アカウントで実行されるクラスターコントローラーにパッチを自動的に適用するように設計されています。の EC2 インスタンスにパッチをインストールするには AWS アカウント、コンピューティングノードグループの Amazon マシンイメージ (AMI) を更新し、更新された AMI を使用するようにコンピューティングノードグループを更新します。詳細については、「AWS PCS のカスタム Amazon マシンイメージ (AMIs)」を参照してください。

注記

Slurm コントローラーは、更新中は利用できません。実行中のジョブは影響を受けません。クラスターのコントローラーが使用できなくなる前に送信されたジョブは、コントローラーが使用できるようになるまで保持されます。

今後の Slurm バージョン EOL イベントについてどのように通知されますか?

EOL 日の 6 か月前に E メールメッセージを送信します。EOL の 1 週間前に最終 E メールメッセージとともに、EOL の 1 か月前に E メールメッセージを送信します。EOL の日付を過ぎると、EOL Slurm バージョンで AWS PCS クラスターを実行しているお客様に 12 か月間毎月 E メールメッセージを送信します。EOL Slurm バージョンでセキュリティの脆弱性が特定された場合、そのバージョンのクラスターを停止することがあります。

クラスターが使用している Slurm バージョンが EOL Slurm バージョンを実行しているかどうかを確認するにはどうすればよいですか?

EOL Slurm バージョンで実行中のクラスターがあることを通知する E メールメッセージを送信します。EOL Slurm バージョンを持つクラスターの詳細を含む AWS Health Dashboard アラートにアラートを投稿します。 AWS PCS コンソールを使用して、EOL Slurm バージョンのクラスターを特定することもできます。

Slurm バージョンが EOL に近い場合、または EOL を超えている場合はどうすればよいですか?

サポートされている新しいバージョンの Slurm を使用して新しいクラスターを作成し、コンピューティングノードグループ AMIs で Slurm バージョンを更新します。AMIsおよび実行中の EC2 インスタンスの Slurm バージョンは、クラスターの Slurm バージョンより 2 バージョンを超えることはできません。詳細については、「AWS PCS のカスタム Amazon マシンイメージ (AMIs)」を参照してください。

EOL 日までに Slurm の新しいバージョンに切り替えない場合どうなりますか?

EOL Slurm バージョンを使用して新しいクラスターを作成することはできません。既存のクラスターは、 AWS サポートなしで最大 12 か月間運用でき、運用を維持するために即時のアクションは必要ありません。EOL 日以降、サポート、セキュリティ更新、可用性は保証されません。セキュリティ上の理由から、クラスターが停止される場合があります。PCS クラスターのセキュリティとサポートを維持するために、サポートされている Slurm AWS バージョンを使用することを強くお勧めします。

EOL Slurm バージョンでクラスターを操作する場合のリスクは何ですか?

EOL Slurm バージョンのクラスターには、重大なセキュリティおよび運用上のリスクがあります。SchedMD のアクティブなモニタリングがない場合、セキュリティの脆弱性は検出されず、対処されないままになる可能性があります。重大な脆弱性が検出された場合、クラスターが直ちに停止される可能性があります。

クラスターが停止されると、ジョブ、クラスターコンピューティング、ストレージ、ネットワークリソースはどうなりますか?

PCS AWS によって管理されるすべてのリソースは終了します。これには、Slurm コントローラー、コンピューティングノードグループ、EC2 インスタンスが含まれます。コンピューティングインスタンスで実行されているジョブは直ちに終了し、クラスターは中断状態になります。外部ファイルシステムなどのカスタマーマネージドリソースはそのまま残ります。PCS コンソールと API AWS アクションを使用して、クラスターの設定にアクセスできます。

中断されたクラスターを再起動して残りのジョブを再開できますか?

いいえ。中断されたクラスターを再起動することはできません。中断されたクラスターの設定を使用して、サポートされている Slurm バージョンで新しいクラスターを作成できます。残りのジョブを外部ファイルシステムに保存した場合は、実行できます。

12 か月の猶予期間を超える延長をリクエストできますか?

いいえ。12 か月の猶予期間を超えてクラスターを実行する拡張機能をリクエストすることはできません。サポートされている Slurm バージョンへの切り替えに役立つ延長時間が用意されています。クラスターオペレーションの中断を避けるため、Slurm バージョンが EOL に達する前に切り替えることをお勧めします。