Inizia a usare il supporto di Amazon EKS in SageMaker HyperPod - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Inizia a usare il supporto di Amazon EKS in SageMaker HyperPod

Oltre al modulo generale Prerequisiti per l'utilizzo di SageMaker HyperPod SageMaker HyperPod, consulta i seguenti requisiti e considerazioni per l'orchestrazione SageMaker HyperPod dei cluster con Amazon EKS.

Importante

Puoi configurare la configurazione delle risorse per la creazione di SageMaker HyperPod cluster utilizzando and. Console di gestione AWS CloudFormation Per ulteriori informazioni, consultare Creazione di un SageMaker HyperPod cluster con l'orchestrazione di Amazon EKS e Creazione di SageMaker HyperPod cluster utilizzando modelli CloudFormation.

Requisiti

Nota

Prima di creare un HyperPod cluster, è necessario un cluster Amazon EKS in esecuzione configurato con VPC e installato tramite Helm.

Durante il provisioning del cluster Amazon EKS, considera quanto segue:

  1. Versioni di Kubernetes supportate

    • SageMaker HyperPod supporta le versioni 1.28, 1.29, 1.30, 1.31, 1.32 e 1.33 di Kubernetes.

  2. Modalità di autenticazione del cluster Amazon EKS

    • La modalità di autenticazione di un cluster Amazon EKS supportata da SageMaker HyperPod sono API eAPI_AND_CONFIG_MAP.

  3. Reti

    • SageMaker HyperPod richiede il plug-in Amazon VPC Container Network Interface (CNI) versione 1.18.3 o successiva.

      Nota

      AWSIl plug-in VPC CNI per Kubernetes è l'unico CNI supportato da. SageMaker HyperPod

    • Il tipo di sottorete nel VPC deve essere privato HyperPod per i cluster.

  4. Ruoli IAM

  5. Componenti aggiuntivi del cluster Amazon EKS

Considerazioni sulla configurazione dei SageMaker HyperPod cluster con Amazon EKS

  • Devi utilizzare ruoli IAM distinti a seconda del tipo di nodi. Per HyperPod i nodi, usa un ruolo basato su. Ruolo IAM per SageMaker HyperPod Per i nodi Amazon EKS, consulta il ruolo IAM del nodo Amazon EKS.

  • Puoi effettuare il provisioning e montare volumi Amazon EBS aggiuntivi sui SageMaker HyperPod nodi utilizzando due approcci: utilizzare InstanceStorageConfigsper il provisioning di volumi a livello di cluster (disponibile durante la creazione o l'aggiornamento di gruppi di istanze) o utilizzare il driver Amazon Elastic Block Store (Amazon EBS) Container Storage Interface (CSI) per la gestione dinamica dei volumi a livello di pod. Con InstanceStorageConfigs, imposta il percorso locale /opt/sagemaker per montare correttamente i volumi sui tuoi pod Amazon EKS. Per informazioni su come distribuire il controller Amazon EBS CSI sui HyperPod nodi, consulta. Utilizzo del driver CSI Amazon EBS su SageMaker HyperPod cluster EKS

  • Se utilizzi etichette di tipo di istanza per definire i vincoli di pianificazione, assicurati di utilizzare i tipi di istanza AI ML con il prefisso. SageMaker ml. Ad esempio, per le istanze P5, utilizza ml.p5.48xlarge invece di p5.48xlarge.

Considerazioni sulla configurazione della rete per i SageMaker HyperPod cluster con Amazon EKS

  • Ogni istanza HyperPod del cluster supporta un'interfaccia di rete elastica (ENI). Per il numero massimo di pod per tipo di istanza, consulta la tabella seguente.

    Tipo di istanza Numero massimo di pod
    ml.p4d.24xlarge 49
    ml.p4de.24xlarge 49
    ml.p5.48xlarge 49
    ml.trn1.32xlarge 49
    ml.trn1n.32xlarge 49
    ml.g5.xlarge 14
    ml.g5.2xlarge 14
    ml.g5.4xlarge 29
    ml.g5.8xlarge 29
    ml.g5.12xlarge 49
    ml.g5.16xlarge 29
    ml.g5.24xlarge 49
    ml.g5.48xlarge 49
    ml.c5.large 9
    ml.c5.xlarge 14
    ml.c5.2xlarge 14
    ml.c5.4xlarge 29
    ml.c5.9xlarge 29
    ml.c5.12xlarge 29
    ml.c5.18xlarge 49
    ml.c5.24xlarge 49
    ml.c5n.large 9
    ml.c5n.2xlarge 14
    ml.c5n.4xlarge 29
    ml.c5n.9xlarge 29
    ml.c5n.18xlarge 49
    ml.m5.large 9
    ml.m5.xlarge 14
    ml.m5.2xlarge 14
    ml.m5.4xlarge 29
    ml.m5.8xlarge 29
    ml.m5.12xlarge 29
    ml.m5.16xlarge 49
    ml.m5.24xlarge 49
    ml.t3.medium 5
    ml.t3.large 11
    ml.t3.xlarge 14
    ml.t3.2xlarge 14
    ml.g6.xlarge 14
    ml.g6.2xlarge 14
    ml.g6.4xlarge 29
    ml.g6.8xlarge 29
    ml.g6.12xlarge 29
    ml.g6.16xlarge 49
    ml.g6.24xlarge 49
    ml.g6.48xlarge 49
    ml.gr6.4xlarge 29
    ml.gr6.8xlarge 29
    ml.g6e.xlarge 14
    ml.g6e.2xlarge 14
    ml.g6e.4xlarge 29
    ml.g6e.8xlarge 29
    ml.g6e.12xlarge 29
    ml.g6e.16xlarge 49
    ml.g6e.24xlarge 49
    ml.g6e.48xlarge 49
    ml.p5e.48xlarge 49
  • Per impostazione predefinita, solo i Pod con hostNetwork = true accesso ad Amazon EC2 Instance Metadata Service (IMDS). Utilizza l'identità Amazon EKS Pod o i ruoli IAM per gli account di servizio (IRSA) per gestire l'accesso alle AWS credenziali per i pod.

  • HyperPod I cluster orchestrati da EKS supportano due modalità di indirizzamento IP, che consentono la configurazione con o IPv4 per i cluster IPv6 IPv6 Amazon EKS in ambienti VPC e sottorete IPv6 abilitati. Per ulteriori informazioni, consulta Configurazione SageMaker HyperPod con un Amazon VPC personalizzato.

Considerazioni sull' HyperPod utilizzo delle funzionalità di resilienza del cluster

  • La sostituzione automatica dei nodi non è supportata per le istanze CPU.

  • L'agente di HyperPod monitoraggio dello stato deve essere installato affinché il ripristino automatico del nodo funzioni. L’agente può essere installato con Helm. Per ulteriori informazioni, consulta Installazione di pacchetti sul cluster Amazon EKS con Helm.

  • L'agente di controllo HyperPod approfondito e monitoraggio dello stato supporta istanze GPU e Trn.

  • SageMaker L'intelligenza artificiale applica la seguente macchia ai nodi quando sono sottoposti a controlli di integrità approfonditi:

    effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
    Nota

    Non puoi aggiungere taint personalizzati ai nodi nei gruppi di istanze con DeepHealthChecks attivato.

Una volta che il cluster Amazon EKS è in esecuzione, configura il cluster utilizzando il gestore di pacchetti Helm come indicato Installazione di pacchetti sul cluster Amazon EKS con Helm prima di creare il HyperPod cluster.