翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker HyperPod マルチヘッドノードのサポート
1 つの SageMaker HyperPod Slurm クラスターに複数のコントローラー (ヘッド) ノードを作成できます。1 つはプライマリコントローラーノード、もう 1 つはバックアップコントローラーノードとして機能します。プライマリコントローラーノードは、コンピューティング (ワーカー) ノードを制御し、Slurm オペレーションを処理します。バックアップコントローラーノードは、プライマリコントローラーノードを常にモニタリングします。プライマリコントローラーノードに障害が発生したり、応答しなくなったりすると、バックアップコントローラーノードの 1 つが新しいプライマリコントローラーノードとして自動的に引き継がれます。
SageMaker HyperPod Slurm クラスターで複数のコントローラーノードを設定すると、いくつかの重要な利点があります。コントローラーヘッドノードを提供することで、単一コントローラーノードの障害のリスクを排除し、バックアップコントローラーノードへの自動フェイルオーバーを高速リカバリで実現し、独自のアカウンティングデータベースと Slurm 設定を個別に管理できます。
主要なコンセプト
Slurm クラスターの SageMaker HyperPod マルチコントローラー (ヘッド) ノードサポートに関連する概念の詳細を以下に示します。
コントローラーノード
コントローラーノードは、クラスター内の Amazon EC2 インスタンスで、クラスターのオペレーションを管理および調整するための重要な Slurm サービスを実行します。具体的には、Slurm コントローラーデーモン (slurmctld)
プライマリコントローラーノード
プライマリコントローラーノードは、Slurm クラスター内のアクティブで現在制御中のコントローラーノードです。これは、クラスターの管理を担当するプライマリコントローラーノードとして Slurm によって識別されます。プライマリコントローラーノードは、ユーザーからコマンドを受信して実行し、実行中のジョブ用にコンピューティングノード上のリソースを制御および割り当てます。
バックアップコントローラーノード
バックアップコントローラーノードは、Slurm クラスター内の非アクティブおよびスタンバイコントローラーノードです。これは、現在クラスターを管理していないバックアップコントローラーノードとして Slurm によって識別されます。バックアップコントローラーノードは、スタンバイモードで Slurm コントローラーデーモン (slurmctld)
コンピューティングノード
コンピューティングノードは、Slurm ワーカーデーモン (slurmd) をホストするクラスター内の Amazon EC2 インスタンスです。 https://slurm.schedmd.com/slurmd.html
仕組み
次の図は、さまざまな AWS のサービスが連携して SageMaker HyperPod Slurm クラスターの複数のコントローラー (ヘッド) ノードアーキテクチャをサポートする方法を示しています。

SageMaker HyperPod マルチコントローラー (ヘッド) ノードアーキテクチャをサポートするために連携する AWS サービスには以下が含まれます。
サービス | 説明 |
---|---|
IAM (AWS Identity and Access Management) | アクセス許可を制御する 2 つの IAM ロールを定義します。1 つはコンピューティングノードインスタンスグループ用、もう 1 つはコントローラーノードインスタンスグループ用です。 |
Amazon RDS for MariaDB | ジョブレコードと計測データを保持する Slurm のアカウンティングデータを保存します。 |
AWS Secrets Manager | Amazon FSx for Lustre がアクセスできる認証情報を保存および管理します。 |
Amazon FSx for Lustre | Slurm 設定とランタイム状態を保存します。 |
Amazon VPC | HyperPod クラスターとそのリソースがデプロイされる分離されたネットワーク環境を提供します。 |
Amazon SNS | プライマリコントローラー (ヘッドOFF ) ノードに関連するステータス変更 (Slurm コントローラーが ON または ) があると、管理者に通知を送信します。 |
HyperPod クラスター自体は、コントローラーノード (プライマリノードとバックアップノード) とコンピューティングノードで構成されます。コントローラーノードは、コンピューティングノード全体のワークロードを管理およびモニタリングする Slurm コントローラー (SlurmCtld) およびデータベース (SlurmDBd) コンポーネントを実行します。
コントローラーノードは、Amazon FSx for Lustre ファイルシステムに保存されている Slurm 設定とランタイム状態にアクセスします。Slurm アカウンティングデータは Amazon RDS for MariaDB データベースに保存されます。 は、コントローラーノードのデータベース認証情報への安全なアクセス AWS Secrets Manager を提供します。
Slurm コントローラーノードにステータス変更 (Slurm コントローラーが ON
または OFF
) がある場合、Amazon SNS は管理者に通知を送信して、さらなるアクションを行います。
この複数のコントローラーノードアーキテクチャにより、1 つのコントローラー (ヘッド) ノードの単一障害点がなくなり、フェイルオーバーの高速かつ自動的な復旧が可能になり、Slurm アカウンティングデータベースと設定を制御できます。