SageMaker HyperPod で Amazon EKS サポートを開始する - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker HyperPod で Amazon EKS サポートを開始する

SageMaker HyperPod の一般的な SageMaker HyperPod を使用するための前提条件 に加えて、Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションするための以下の要件と考慮事項を確認してください。

重要

AWS マネジメントコンソール および CloudFormation を使用して、SageMaker HyperPod クラスターを作成するためのリソース設定をセットアップできます。詳細については、「Amazon EKS オーケストレーションを使用した SageMaker HyperPod クラスターの作成」および「CloudFormationテンプレートを使用した SageMaker HyperPod クラスターの作成」を参照してください。

要件

注記

HyperPod クラスターを作成する前に、VPC で設定され、Helm を使用してインストールされている実行中の Amazon EKS クラスターが必要です。

Amazon EKS クラスターをプロビジョニングするときは、次の点を考慮してください。

  1. Kubernetes バージョンのサポート

    • SageMaker HyperPod は、Kubernetes バージョン 1.28、1.29、1.30、1.31、1.32、および 1.33 をサポートしています。

  2. Amazon EKS クラスター認証モード

    • SageMaker HyperPod でサポートされている Amazon EKS クラスターの認証モードは API および API_AND_CONFIG_MAP です。

  3. ネットワーク

    • SageMaker HyperPod には、Amazon VPC Container Network Interface (CNI) プラグインバージョン 1.18.3 以降が必要です。

      注記

      AWSVPC CNI plugin for Kubernetes は、SageMaker HyperPod でサポートされている唯一の CNI です。

    • VPC 内のサブネットのタイプは、HyperPod クラスターではプライベートにする必要があります。

  4. IAM ロール

  5. Amazon EKS クラスターアドオン

    • Kube-proxyCoreDNS、Amazon VPC Container Network Interface (CNI) プラグイン、Amazon EKS ポッドアイデンティティ、GuardDuty エージェント、Amazon FSx Container Storage Interface (CSI) ドライバー、Mountpoint for Amazon S3 CSI ドライバー、Distro for OpenTelemetry、CloudWatch Observability エージェントなど、Amazon EKS が提供するさまざまなアドオンを引き続き使用できます。AWS OpenTelemetry CloudWatch

Amazon EKS で SageMaker HyperPod クラスターを設定する際の考慮事項

  • ノードのタイプに基づいて異なる IAM ロールを使用する必要があります。HyperPod ノードの場合は、「SageMaker HyperPod の IAM ロール」に基づくロールを使用します。Amazon EKS ノードについては、「Amazon EKS ノードの IAM ロール」を参照してください。

  • SageMaker HyperPod ノードに追加の Amazon EBS ボリュームをプロビジョンしてマウントするには、クラスターレベルのボリュームプロビジョニングに InstanceStorageConfigs を使用するか (インスタンスグループの作成または更新時に使用可能)、動的ポッドレベルのボリューム管理に Amazon Elastic Block Store (Amazon EBS) Container Storage Interface (CSI) ドライバーを使用します。InstanceStorageConfigs では、ローカルパス/opt/sagemaker に設定して、ボリュームを Amazon EKS ポッドに適切にマウントします。Amazon EBS CSI コントローラーを HyperPod ノードにデプロイする方法については、「SageMaker HyperPod EKS クラスターで Amazon EBS CSI ドライバーを使用する」を参照してください。

  • インスタンスタイプのラベルを使用してスケジューリングの制約を定義する場合は、プレフィックスが ml. の SageMaker AI ML インスタンスタイプを使用します。例えば、P5 インスタンスの場合は、p5.48xlarge の代わりに ml.p5.48xlarge を使用します。

Amazon EKS で SageMaker HyperPod クラスターのネットワークを設定する際の考慮事項

  • 各 HyperPod クラスターインスタンスでは、1 つの Elastic Network Interface (ENI) がサポートされます。インスタンスタイプあたりのポッドの最大数については、次の表を参照してください。

    インスタンスタイプ ポッドの最大数
    ml.p4d.24xlarge 49
    ml.p4de.24xlarge 49
    ml.p5.48xlarge 49
    ml.trn1.32xlarge 49
    ml.trn1n.32xlarge 49
    ml.g5.xlarge 14
    ml.g5.2xlarge 14
    ml.g5.4xlarge 29
    ml.g5.8xlarge 29
    ml.g5.12xlarge 49
    ml.g5.16xlarge 29
    ml.g5.24xlarge 49
    ml.g5.48xlarge 49
    ml.c5.large 9
    ml.c5.xlarge 14
    ml.c5.2xlarge 14
    ml.c5.4xlarge 29
    ml.c5.9xlarge 29
    ml.c5.12xlarge 29
    ml.c5.18xlarge 49
    ml.c5.24xlarge 49
    ml.c5n.large 9
    ml.c5n.2xlarge 14
    ml.c5n.4xlarge 29
    ml.c5n.9xlarge 29
    ml.c5n.18xlarge 49
    ml.m5.large 9
    ml.m5.xlarge 14
    ml.m5.2xlarge 14
    ml.m5.4xlarge 29
    ml.m5.8xlarge 29
    ml.m5.12xlarge 29
    ml.m5.16xlarge 49
    ml.m5.24xlarge 49
    ml.t3.medium 5
    ml.t3.large 11
    ml.t3.xlarge 14
    ml.t3.2xlarge 14
    ml.g6.xlarge 14
    ml.g6.2xlarge 14
    ml.g6.4xlarge 29
    ml.g6.8xlarge 29
    ml.g6.12xlarge 29
    ml.g6.16xlarge 49
    ml.g6.24xlarge 49
    ml.g6.48xlarge 49
    ml.gr6.4xlarge 29
    ml.gr6.8xlarge 29
    ml.g6e.xlarge 14
    ml.g6e.2xlarge 14
    ml.g6e.4xlarge 29
    ml.g6e.8xlarge 29
    ml.g6e.12xlarge 29
    ml.g6e.16xlarge 49
    ml.g6e.24xlarge 49
    ml.g6e.48xlarge 49
    ml.p5e.48xlarge 49
  • デフォルトでは、Amazon EC2 インスタンスメタデータサービス (IMDS) にアクセスできるのは、hostNetwork = true のポッドのみです。Amazon EKS Pod ID またはサービスアカウント (IRSA) の IAM ロールを使用して、Pod のAWS認証情報へのアクセスを管理します。

  • EKS オーケストレーション HyperPod クラスターはデュアル IP アドレス指定モードをサポートしており、IPv6 対応の VPC およびサブネット環境の IPv6 Amazon EKS クラスターに対して IPv4 または IPv6 による構成が可能です。詳細については、「カスタム Amazon VPC で SageMaker HyperPod を設定する」を参照してください。

HyperPod クラスターの回復機能を使用する際の考慮事項

  • ノードの自動置き換えは、CPU インスタンスではサポートされていません。

  • ノードの自動復旧が機能するには、HyperPod ヘルスモニタリングエージェントをインストールする必要があります。エージェントは Helm を使用してインストールできます。詳細については、「Helm を使用して Amazon EKS クラスターにパッケージをインストールする」を参照してください。

  • HyperPod のディープヘルスチェックとヘルスモニタリングエージェントは、GPU インスタンスと Trn インスタンスをサポートしています。

  • SageMaker AI は、ノードがディープヘルスチェックを受けている際に、次のテイントを適用します。

    effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
    注記

    DeepHealthChecks がオンになっているインスタンスグループのノードにカスタムテイントを追加することはできません。

Amazon EKS クラスターが実行されたら、HyperPod クラスターを作成する前に、「Helm を使用して Amazon EKS クラスターにパッケージをインストールする」の手順に従い、Helm パッケージマネージャーを使用してクラスターを設定します。