翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker HyperPod を使用するための前提条件
以下のセクションでは、SageMaker HyperPod の使用を開始する前に前提条件について説明します。
トピック
SageMaker HyperPod クォータ
AWSアカウントのクラスター使用量のクォータを指定して、SageMaker HyperPod クラスターを作成できます。
重要
SageMaker HyperPod の料金の詳細については、「SageMaker HyperPod の料金」および「Amazon SageMaker の料金
を使用して Amazon SageMaker HyperPod クォータを表示するAWS マネジメントコンソール
SageMaker HyperPod に使用されるクラスター使用状況のクォータ (制限とも呼ばれます) のデフォルト値と適用される値を検索します。
-
サービスクォータ コンソール
を開きます。 -
左側のナビゲーションペインで [AWS services] ( のサービス) を選択します。
-
AWS サービスリストから [Amazon SageMaker AI] を検索して選択します。
-
サービスクォータリストでは、サービスクォータ名、適用された値 (使用可能な場合)、AWSデフォルトのクォータ、およびクォータ値が調整可能かどうかを確認できます。
-
検索バーに、「クラスター使用状況」と入力します。クラスター使用状況のクォータ、適用されるクォータ、およびデフォルトのクォータが表示されます。
HyperPod クラスターを作成するための一般的なサービスクォータとその前提条件のリスト
SageMaker AI コンソールで前提条件とともに新しい HyperPod クラスターを作成するために、次のクォータのサービスクォータ制限の引き上げをリクエストしたかどうかを確認することができます。Service Quota コンソールに移動し、次の用語を検索します。
| 不可 | クォータ名 | 検索用語 | 説明 |
|---|---|---|---|
| 1 | SageMaker HyperPod クラスターごとに許可されるインスタンスの最大数 | SageMaker AI でSageMaker HyperPod クラスターごとに許可されるインスタンスの最大数」を検索する | アカウントレベルのクォータ値は、クラスターに追加するインスタンスの数を超える必要があります |
| 2 | SageMaker HyperPod クラスターインスタンスの EBS ボリュームの最大サイズ (GB 単位) |
SageMaker AI で「HyperPod クラスターインスタンスの EBS ボリュームの最大サイズ」を検索する |
アカウントレベルのクォータ値は、クラスターに追加する EBS ボリュームよりも大きくする必要があります |
| 3 | SageMaker HyperPod クラスター全体で許可されるインスタンスの合計数 |
SageMaker AI でSageMaker HyperPod クラスター間で許可されるインスタンスの総数」を検索する |
アカウントレベルのクォータ値は、アカウント内のすべてのクラスターに合計して追加するインスタンスの合計を超える必要があります。 |
| 4 |
インスタンスクォータ |
SageMaker AI でクラスター使用状況の「ml.<instance_type>」を検索 例: クラスター使用状況の ml.p5.48xlarge |
特定のインスタンスタイプ (ml.p5.48xlarge など) のアカウントレベルのクォータ値は、アカウント内のすべてのクラスターに集約して追加するインスタンスの数よりも大きくする必要があります。 |
| 5 |
リージョンあたりの VPC |
Amazon Virtual Private Cloud (Amazon VPC) でVPCs per Region」を検索する | アカウントレベルのクォータ値は、HyperPod クラスターを設定するときにアカウントに新しい VPC を作成するのに十分な値である必要があります。VPC コンソールを確認して、このクォータ制限をすでに使い切っているかどうかを確認します。このクォータの引き上げは、SageMaker HyperPod コンソールのクイックまたはカスタムクラスターセットアップオプションを使用して新しい VPC を作成する場合にのみ必要です。 |
| 6 |
リージョンあたりのインターネットゲートウェイ |
Amazon Virtual Private Cloud (Amazon VPC) で「リージョンあたりのインターネットゲートウェイ」を検索する |
アカウントレベルのクォータ値は、SageMaker HyperPod クラスターを設定するときに、アカウントに 1 つの追加のインターネットゲートウェイを作成するのに十分な値である必要があります。このクォータの引き上げは、SageMaker HyperPod コンソールのクイックまたはカスタムクラスターセットアップオプションを使用して新しい VPC を作成する場合にのみ必要です。 |
| 7 | リージョンあたりのネットワークインターフェイス | Amazon Virtual Private Cloud (Amazon VPC) で「リージョンあたりのネットワークインターフェイス」を検索する |
HyperPod クラスターをセットアップするとき、アカウントレベルのクォータ値には、アカウントに十分なネットワークインターフェイスが必要です。 |
| 8 | EC2-VPC Elastic IP | Amazon Elastic Compute Cloud (Amazon EC2) でEC2-VPC Elastic IPs」を検索する | アカウントレベルのクォータ値は、HyperPod クラスターを設定するときにアカウントに新しい VPC を作成するのに十分な値である必要があります。VPC コンソールを確認して、このクォータ制限をすでに使い切っているかどうかを確認します。このクォータの引き上げは、SageMaker HyperPod コンソールのクイックまたはカスタムクラスターセットアップオプションを使用して新しい VPC を作成する場合にのみ必要です。 |
を使用して Amazon SageMaker HyperPod クォータの引き上げをリクエストするAWS マネジメントコンソール
アカウントまたはリソースレベルでクォータを引き上げます。
-
クラスター使用状況のインスタンスのクォータを引き上げるには、引き上げ対象のクォータを選択します。
-
クォータが調整可能な場合、[調整可能性] 列にリストされている値に基づいて、アカウントレベルまたはリソースレベルでクォータの引き上げをリクエストできます。
-
[クォータ値を引き上げる] に、新しい値を入力します。新しい値は現在値よりも大きい値である必要があります。
-
[リクエスト] を選択します。
-
保留中または最近解決されたリクエストをコンソールに表示するには、サービスの詳細ページから [リクエスト履歴] タブに移動するか、ナビゲーションペインから [ダッシュボード] を選択します。保留中のリクエストの場合は、リクエストのステータスを選択してリクエストの受信をオープンします。リクエストの初期ステータスは [Pending] (保留中) です。ステータスがクォータリクエストに変更されると、ケース番号が表示されますAWS サポート。リクエストのチケットを開くには、ケース番号を選択します。
クォータの引き上げをリクエストする方法の全般的な詳細については、「AWS Service Quotas ユーザーガイド」の「クォータの引き上げをリクエストする」を参照してください。
カスタム Amazon VPC で SageMaker HyperPod を設定する
カスタム Amazon VPC で SageMaker HyperPod クラスターをセットアップするには、次の前提条件を確認してください。
注記
Amazon EKS オーケストレーションには VPC 設定が必須です。Slurm オーケストレーションの場合、VPC のセットアップはオプションです。
-
カスタム VPC で SageMaker HyperPod クラスターを作成するAWS アカウント前に、 で Elastic Network Interface (ENI) 容量を検証します。ENI の制限は Amazon EC2 によって制御され、AWS リージョン によって異なります。SageMaker HyperPod はクォータの引き上げを自動的にはリクエストできません。
現在の ENI クォータを検証するには:
-
サービスクォータ コンソール
を開きます。 -
「クォータの管理」セクションで、AWSサービスドロップダウンリストを使用して VPC を検索します。
-
リストから、[Amazon Virtual Private Cloud (Amazon VPC)] を選択します。
-
[リージョン当たりのネットワークインターフェイス数] または [クォータコード]
L-DF5E4CA3を探します。
現在の ENI 制限が SageMaker HyperPod クラスターのニーズに十分でない場合は、クォータの引き上げをリクエストします。事前に十分な ENI キャパシティを確保しておくと、クラスターのデプロイの失敗を防ぐことができます。
-
-
カスタム VPC を使用して SageMaker HyperPod クラスターAWSを リソースに接続する場合は、クラスターの作成時に VPC 名、IDAWS リージョン、サブネット IDs、セキュリティグループ IDsを指定します。
注記
Amazon VPC とサブネットがクラスターの
VPCConfigで、またはClusterInstanceGroupSpecificationのOverrideVPCConfig属性を使用してインスタンスグループレベルで IPv6 をサポートする場合、ネットワーク通信はクラスターオーケストレーションプラットフォームによって異なります。-
Slurm オーケストレーションされたクラスターは、デュアル IPv6 アドレスと IPv4 アドレスを使用してノードを自動的に設定するため、IPv6 ネットワーク通信を直ちに行うことができます。
VPCConfigIPv6 設定以外の追加設定は必要ありません。 -
EKS オーケストレーションクラスターでは、ノードはデュアルスタックアドレス指定を受け取りますが、ポッドは Amazon EKS クラスターが明示的に IPv6-enabled となっている場合に IPv6 を使用できます。新しい IPv6 Amazon EKS クラスターを作成する必要があります。既存の IPv4 Amazon EKS クラスターを IPv6 に変換することはできません。IPv6 Amazon EKS クラスターのデプロイの詳細については、「Amazon EKSIPv6 クラスターのデプロイ」を参照してください。
IPv6 設定のその他のリソース:
-
VPC に IPv6 サポートを追加する方法については、「VPC の IPv6 サポート」を参照してください。
-
新しい IPv6 対応 VPC の詳細については、「Amazon VPC 作成ガイド」を参照してください。
-
カスタム Amazon VPC で SageMaker HyperPod を設定するには、「SageMaker HyperPod のカスタム Amazon VPC 設定」を参照してください。
-
-
すべてのリソースが SageMaker HyperPod クラスターAWS リージョンと同じ にデプロイされていることを確認します。VPC 内のリソース間通信を許可するようにセキュリティグループルールを設定します。例えば、
us-west-2で VPC を作成する場合、単一または複数のアベイラビリティーゾーン (us-west-2aやus-west-2bなど) にサブネットをプロビジョンし、グループ内トラフィックを許可するセキュリティグループを作成します。注記
SageMaker HyperPod は、マルチアベイラビリティーゾーンのデプロイをサポートしています。詳細については、「複数の AZ にまたがる SageMaker HyperPod クラスターのセットアップ」を参照してください。
-
VPC エンドポイントを作成して、VPC にデプロイされた SageMaker HyperPod インスタンスグループの Amazon Simple Storage Service(Amazon S3) 接続を確立します。インターネットアクセスがないと、インスタンスグループはライフサイクルスクリプト、トレーニングデータ、またはモデルアーティファクトを保存または取得できません。Amazon S3 バケットのプライベート VPC へのアクセスを制限するカスタム IAM ポリシーを作成することをお勧めします。詳細については、「AWS PrivateLink ユーザーガイド」の「Amazon S3 におけるエンドポイント」を参照してください。
-
Elastic Fabric Adapter (EFA) 対応インスタンスを使用する HyperPod クラスターの場合、セキュリティグループ自体との間で送受信されるすべてのトラフィックを許可するようにセキュリティグループを設定します。具体的には、EFA ヘルスチェックが失敗する可能性があるため、アウトバウンドルールに
0.0.0.0/0は使用しないでください。EFA セキュリティグループ準備ガイドラインの詳細については、「Amazon EC2 ユーザーガイド」の「ステップ 1: EFA 対応のセキュリティグループを準備する」を参照してください。 -
HyperPod クラスターを作成する前に、サブネットのクラスレスドメイン間ルーティング (CIDR) ブロックサイズを慎重に検討する必要があります。
-
サブネット CIDR ブロックサイズは、作成後に変更することはできません。これは、P5 などの大規模な高速インスタンスを使用する場合に特に重要です。十分なブロックサイズがない場合は、スケールアップ時にクラスターを再作成する必要があります。
-
適切なサブネット CIDR ブロックサイズを選択する際は、インスタンスタイプ、予想されるインスタンス数、各インスタンスで消費される IP アドレスの数などの要素を考慮します。
-
Slurm オーケストレーションクラスターの場合、各 P5 インスタンスは 32 個の IP アドレスを作成できます (ネットワークカードごとに 1 つ)。EKS オーケストレーションクラスターの場合、各 P5 インスタンスは 81 個の IP アドレスを作成できます (プライマリカードから 50 個 + 残りの 31 個の各カードから 1 個)。詳細な仕様については、「Amazon EC2 インスタンスタイプデベロッパーガイド」の「ネットワーク仕様」を参照してください。
-
サブネット CIDR ブロックサイズを指定する CloudFormation テンプレートの例については、「awsome-distributed-training レポジトリ
」の「HyperPod Slurm テンプレート 」と「HyperPod Amazon EKS テンプレート 」を参照してください。
-
複数の AZ にまたがる SageMaker HyperPod クラスターのセットアップ
複数のアベイラビリティーゾーン (AZ) にまたがる SageMaker HyperPod クラスターを設定して、信頼性と可用性を向上させることができます。
注記
Elastic Fabric Adapter (EFA) トラフィックは、複数の AZ または VPC をまたがることはできません。これはEFA インターフェイスの ENA デバイスからの通常の IP トラフィックには適用されません。詳細については、「EFA の制限事項」を参照してください。
-
デフォルトの動作
HyperPod は、すべてのクラスターインスタンスを単一のアベイラビリティーゾーンにデプロイします。VPC 設定によって、以下のとおり、デプロイ AZ が決まります。
-
Slurm オーケストレーションのクラスターの場合、VPC の設定はオプションです。VPC 設定が指定されていない場合、HyperPod はデフォルトでプラットフォーム VPC から単一のサブネットに設定されます。
-
EKS オーケストレーションのクラスターの場合、VPC の設定は必須です。
-
Slurm オーケストレーターと EKS オーケストレーターの両方で、
VpcConfigが指定されていと、HyperPod は指定されたVpcConfigのサブネットリストからサブネットを選択します。すべてのインスタンスグループは、サブネットの AZ を継承します。
注記
クラスターの作成後に、
VpcConfig設定を変更することはできません。HyperPod クラスター向けの VPC 設定の詳細については、「カスタム Amazon VPC で SageMaker HyperPod を設定する」を参照してください。
-
-
マルチ AZ 設定
クラスターを作成する際、または既存のクラスターに新しいインスタンスグループを追加する際に、複数の AZ にまたがって HyperPod クラスターを設定できます。マルチ AZ 配置を設定するには、クラスター内の個々のインスタンスグループに対して、異なるアベイラビリティーゾーン間で異なるサブネットとセキュリティグループを指定することで、クラスターのデフォルトの VPC 設定を上書きできます。
SageMaker HyperPod API については、
CreateClusterAPI またはUpdateClusterAPI を利用する際に、ClusterInstanceGroupSpecification 内のOverrideVpcConfigプロパティを使用できます。OverrideVpcConfigフィールド:-
インスタンスグループの作成後に変更することはできません。
-
これはオプションです。指定されない場合、デフォルトでクラスターレベル
VpcConfigが使用されます。 -
Slurm オーケストレーションクラスターの場合、
VpcConfigはクラスターレベルが提供されている場合にのみ指定できます。クラスターレベルでVpcConfigが指定されていない場合、OverrideVpcConfigはどのインスタンスグループでも使用できません。 -
次の 2 つの必須フィールドが含まれます。
-
Subnets- 1~16 個のサブネット ID を使用可。 -
SecurityGroupIds- 1~5 個のセキュリティグループ ID を使用可。
-
SageMaker HyperPod コンソール UI または AWS CLI を使用して SageMaker HyperPod クラスターを作成または更新する方法の詳細については、以下を参照してください。
-
Slurm オーケストレーション:「Slurm オーケストレーション HyperPod クラスターの操作」を参照してください。
-
EKS オーケストレーション。「EKS オーケストレーション HyperPod クラスターを操作する」を参照してください。
-
注記
複数の AZ 間でワークロードを実行する場合は、AZ 間のネットワーク通信によりレイテンシーが増大することに注意が必要です。レイテンシーの影響を受けやすいアプリケーションを設計する場合は、この影響を考慮します。
クラスターユーザーアクセスコントロールの設定AWS Systems Managerと Run As
SageMaker HyperPod DLAMI には、SageMaker HyperPod クラスターインスタンスグループへのアクセスを管理するのに役立つ AWS Systems Manager
注記
HyperPod クラスターノードへのアクセス権をユーザーに付与すると、ユーザーが管理するソフトウェアをノードにインストールして操作できます。ユーザーの最小権限のアクセス許可の原則を維持します。
AWSアカウントで Run As を有効にする
AWSアカウント管理者またはクラウド管理者は、SSM の Run As 機能を使用して、IAM ロールまたはユーザーレベルで SageMaker HyperPod クラスターへのアクセスを管理できます。 https://docs.aws.amazon.com/systems-manager/latest/userguide/session-preferences-run-as.htmlこの機能を使用すると、IAM ロールまたはユーザーに関連付けられた OS ユーザーを使用して、各 SSM セッションを開始できます。
AWSアカウントで Run As を有効にするには、「Linux および macOS マネージドノードの Run As サポートを有効にする」の手順に従います。クラスターで OS ユーザーを既に作成している場合、「Linux と macOS のマネージドノードで Run As サポートを有効にする」のステップ 5 のオプション 2 で説明されているようにタグ付けすることにより、それらを IAM ロールまたはユーザーに関連付けてください。
(オプション) Amazon FSx for Lustre で SageMaker HyperPod を設定する
SageMaker HyperPod の使用を開始し、クラスターと FSx for Lustre ファイルシステム間のデータパスのマッピングを開始するには、SageMaker HyperPod でAWS リージョンサポートされている のいずれかを選択します。AWS リージョン任意の を選択したら、使用するアベイラビリティーゾーン (AZ) も決定する必要があります。
同じ 内で FSx for Lustre ファイルシステムがセットアップされている AZs とは異なる AZs で SageMaker HyperPod コンピューティングノードを使用する場合AWS リージョン、通信とネットワークのオーバーヘッドが発生する可能性があります。SageMaker HyperPod クラスターと FSx for Lustre ファイルシステム間のクロス AZ トラフィックを避けるため、SageMaker HyperPod サービスアカウントと同じ物理 AZ を使用することをお勧めします。さらに、VPC で設定済みであることも確認してください。Amazon FSx をストレージのメインファイルシステムとして使用する場合、VPC で SageMaker HyperPod クラスターを設定する必要があります。