翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker HyperPod で Amazon EKS サポートを開始する
SageMaker HyperPod の一般的な SageMaker HyperPod を使用するための前提条件 に加えて、Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションするための以下の要件と考慮事項を確認してください。
重要
AWS マネジメントコンソール および CloudFormation を使用して、SageMaker HyperPod クラスターを作成するためのリソース設定をセットアップできます。詳細については、「Amazon EKS オーケストレーションを使用した SageMaker HyperPod クラスターの作成」および「CloudFormationテンプレートを使用した SageMaker HyperPod クラスターの作成」を参照してください。
要件
注記
HyperPod クラスターを作成する前に、VPC で設定され、Helm を使用してインストールされている実行中の Amazon EKS クラスターが必要です。
-
SageMaker AI コンソールを使用している場合は、HyperPod クラスターコンソールページ内に Amazon EKS クラスターを作成できます。詳細については、「Amazon EKS オーケストレーションを使用した SageMaker HyperPod クラスターの作成」を参照してください。
-
AWSCLI を使用する場合は、関連付ける HyperPod クラスターを作成する前に Amazon EKS クラスターを作成する必要があります。詳細については、「Amazon EKS ユーザーガイド」の「Amazon EKS クラスターを作成します」を参照してください。
Amazon EKS クラスターをプロビジョニングするときは、次の点を考慮してください。
-
Kubernetes バージョンのサポート
-
SageMaker HyperPod は、Kubernetes バージョン 1.28、1.29、1.30、1.31、1.32、および 1.33 をサポートしています。
-
-
Amazon EKS クラスター認証モード
-
SageMaker HyperPod でサポートされている Amazon EKS クラスターの認証モードは
APIおよびAPI_AND_CONFIG_MAPです。
-
-
ネットワーク
-
SageMaker HyperPod には、Amazon VPC Container Network Interface (CNI) プラグインバージョン 1.18.3 以降が必要です。
注記
AWSVPC CNI plugin for Kubernetes
は、SageMaker HyperPod でサポートされている唯一の CNI です。 -
VPC 内のサブネットのタイプは、HyperPod クラスターではプライベートにする必要があります。
-
-
IAM ロール
-
HyperPod に必要な IAM ロールが、「AWS Identity and Access ManagementSageMaker HyperPod 用」セクションのガイドに従って設定されていることを確認します。
-
-
Amazon EKS クラスターアドオン
-
Kube-proxy、CoreDNS、Amazon VPC Container Network Interface (CNI) プラグイン、Amazon EKS ポッドアイデンティティ、GuardDuty エージェント、Amazon FSx Container Storage Interface (CSI) ドライバー、Mountpoint for Amazon S3 CSI ドライバー、Distro for OpenTelemetry、CloudWatch Observability エージェントなど、Amazon EKS が提供するさまざまなアドオンを引き続き使用できます。AWS OpenTelemetry CloudWatch
-
Amazon EKS で SageMaker HyperPod クラスターを設定する際の考慮事項
-
ノードのタイプに基づいて異なる IAM ロールを使用する必要があります。HyperPod ノードの場合は、「SageMaker HyperPod の IAM ロール」に基づくロールを使用します。Amazon EKS ノードについては、「Amazon EKS ノードの IAM ロール」を参照してください。
-
SageMaker HyperPod ノードに追加の Amazon EBS ボリュームをプロビジョンしてマウントするには、クラスターレベルのボリュームプロビジョニングに InstanceStorageConfigs を使用するか (インスタンスグループの作成または更新時に使用可能)、動的ポッドレベルのボリューム管理に Amazon Elastic Block Store (Amazon EBS) Container Storage Interface (CSI) ドライバーを使用します。InstanceStorageConfigs では、ローカルパス
を /opt/sagemakerに設定して、ボリュームを Amazon EKS ポッドに適切にマウントします。Amazon EBS CSI コントローラーを HyperPod ノードにデプロイする方法については、「SageMaker HyperPod EKS クラスターで Amazon EBS CSI ドライバーを使用する」を参照してください。 -
インスタンスタイプのラベルを使用してスケジューリングの制約を定義する場合は、プレフィックスが
ml.の SageMaker AI ML インスタンスタイプを使用します。例えば、P5 インスタンスの場合は、p5.48xlargeの代わりにml.p5.48xlargeを使用します。
Amazon EKS で SageMaker HyperPod クラスターのネットワークを設定する際の考慮事項
-
各 HyperPod クラスターインスタンスでは、1 つの Elastic Network Interface (ENI) がサポートされます。インスタンスタイプあたりのポッドの最大数については、次の表を参照してください。
インスタンスタイプ ポッドの最大数 ml.p4d.24xlarge 49 ml.p4de.24xlarge 49 ml.p5.48xlarge 49 ml.trn1.32xlarge 49 ml.trn1n.32xlarge 49 ml.g5.xlarge 14 ml.g5.2xlarge 14 ml.g5.4xlarge 29 ml.g5.8xlarge 29 ml.g5.12xlarge 49 ml.g5.16xlarge 29 ml.g5.24xlarge 49 ml.g5.48xlarge 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xlarge 29 ml.c5.18xlarge 49 ml.c5.24xlarge 49 ml.c5n.large 9 ml.c5n.2xlarge 14 ml.c5n.4xlarge 29 ml.c5n.9xlarge 29 ml.c5n.18xlarge 49 ml.m5.large 9 ml.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 ml.t3.medium 5 ml.t3.large 11 ml.t3.xlarge 14 ml.t3.2xlarge 14 ml.g6.xlarge 14 ml.g6.2xlarge 14 ml.g6.4xlarge 29 ml.g6.8xlarge 29 ml.g6.12xlarge 29 ml.g6.16xlarge 49 ml.g6.24xlarge 49 ml.g6.48xlarge 49 ml.gr6.4xlarge 29 ml.gr6.8xlarge 29 ml.g6e.xlarge 14 ml.g6e.2xlarge 14 ml.g6e.4xlarge 29 ml.g6e.8xlarge 29 ml.g6e.12xlarge 29 ml.g6e.16xlarge 49 ml.g6e.24xlarge 49 ml.g6e.48xlarge 49 ml.p5e.48xlarge 49 -
デフォルトでは、Amazon EC2 インスタンスメタデータサービス (IMDS) にアクセスできるのは、
hostNetwork = trueのポッドのみです。Amazon EKS Pod ID またはサービスアカウント (IRSA) の IAM ロールを使用して、Pod のAWS認証情報へのアクセスを管理します。 -
EKS オーケストレーション HyperPod クラスターはデュアル IP アドレス指定モードをサポートしており、IPv6 対応の VPC およびサブネット環境の IPv6 Amazon EKS クラスターに対して IPv4 または IPv6 による構成が可能です。詳細については、「カスタム Amazon VPC で SageMaker HyperPod を設定する」を参照してください。
HyperPod クラスターの回復機能を使用する際の考慮事項
-
ノードの自動置き換えは、CPU インスタンスではサポートされていません。
-
ノードの自動復旧が機能するには、HyperPod ヘルスモニタリングエージェントをインストールする必要があります。エージェントは Helm を使用してインストールできます。詳細については、「Helm を使用して Amazon EKS クラスターにパッケージをインストールする」を参照してください。
-
HyperPod のディープヘルスチェックとヘルスモニタリングエージェントは、GPU インスタンスと Trn インスタンスをサポートしています。
-
SageMaker AI は、ノードがディープヘルスチェックを受けている際に、次のテイントを適用します。
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable注記
DeepHealthChecksがオンになっているインスタンスグループのノードにカスタムテイントを追加することはできません。
Amazon EKS クラスターが実行されたら、HyperPod クラスターを作成する前に、「Helm を使用して Amazon EKS クラスターにパッケージをインストールする」の手順に従い、Helm パッケージマネージャーを使用してクラスターを設定します。