Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Inizia a usare il supporto di Amazon EKS in SageMaker HyperPod
Oltre al modulo generale Prerequisiti per l'utilizzo di SageMaker HyperPod SageMaker HyperPod, consulta i seguenti requisiti e considerazioni per l'orchestrazione SageMaker HyperPod dei cluster con Amazon EKS.
Importante
Puoi configurare la configurazione delle risorse per la creazione di SageMaker HyperPod cluster utilizzando and. Console di gestione AWS CloudFormation Per ulteriori informazioni, consultare Creazione di un SageMaker HyperPod cluster con l'orchestrazione di Amazon EKS e Creazione di SageMaker HyperPod cluster utilizzando modelli CloudFormation.
Requisiti
Nota
Prima di creare un HyperPod cluster, è necessario un cluster Amazon EKS in esecuzione configurato con VPC e installato tramite Helm.
-
Se utilizzi la console SageMaker AI, puoi creare un cluster Amazon EKS all'interno della pagina della console del HyperPod cluster. Per ulteriori informazioni, consulta Creazione di un SageMaker HyperPod cluster con l'orchestrazione di Amazon EKS.
-
Se si utilizza la AWS CLI, è necessario creare un cluster Amazon EKS prima di creare un HyperPod cluster a cui associarsi. Per ulteriori informazioni, consulta Create an Amazon EKS cluster in Amazon EKS User Guide.
Durante il provisioning del cluster Amazon EKS, considera quanto segue:
-
Versioni di Kubernetes supportate
-
SageMaker HyperPod supporta le versioni 1.28, 1.29, 1.30, 1.31, 1.32 e 1.33 di Kubernetes.
-
-
Modalità di autenticazione del cluster Amazon EKS
-
La modalità di autenticazione di un cluster Amazon EKS supportata da SageMaker HyperPod sono
APIeAPI_AND_CONFIG_MAP.
-
-
Reti
-
SageMaker HyperPod richiede il plug-in Amazon VPC Container Network Interface (CNI) versione 1.18.3 o successiva.
Nota
AWSIl plug-in VPC CNI per Kubernetes
è l'unico CNI supportato da. SageMaker HyperPod -
Il tipo di sottorete nel VPC deve essere privato HyperPod per i cluster.
-
-
Ruoli IAM
-
Assicurati che i ruoli IAM necessari per HyperPod siano configurati come indicato nella sezione. AWS Identity and Access Managementper SageMaker HyperPod
-
-
Componenti aggiuntivi del cluster Amazon EKS
-
Puoi continuare a utilizzare i vari componenti aggiuntivi forniti da Amazon EKS come Kube-proxy, CoredNS, il plug-in Amazon VPC Container Network Interface (CNI), l'identità GuardDuty del pod Amazon EKS, l'agente, il driver Amazon Container Storage Interface (CSI), FSx il driver CSI Mountpoint per Amazon S3, l'agente Distro for e l'agente Observability. AWS OpenTelemetry CloudWatch
-
Considerazioni sulla configurazione dei SageMaker HyperPod cluster con Amazon EKS
-
Devi utilizzare ruoli IAM distinti a seconda del tipo di nodi. Per HyperPod i nodi, usa un ruolo basato su. Ruolo IAM per SageMaker HyperPod Per i nodi Amazon EKS, consulta il ruolo IAM del nodo Amazon EKS.
-
Puoi effettuare il provisioning e montare volumi Amazon EBS aggiuntivi sui SageMaker HyperPod nodi utilizzando due approcci: utilizzare InstanceStorageConfigsper il provisioning di volumi a livello di cluster (disponibile durante la creazione o l'aggiornamento di gruppi di istanze) o utilizzare il driver Amazon Elastic Block Store (Amazon EBS) Container Storage Interface (CSI) per la gestione dinamica dei volumi a livello di pod. Con InstanceStorageConfigs, imposta il percorso locale
/opt/sagemakerper montare correttamente i volumi sui tuoi pod Amazon EKS. Per informazioni su come distribuire il controller Amazon EBS CSI sui HyperPod nodi, consulta. Utilizzo del driver CSI Amazon EBS su SageMaker HyperPod cluster EKS -
Se utilizzi etichette di tipo di istanza per definire i vincoli di pianificazione, assicurati di utilizzare i tipi di istanza AI ML con il prefisso. SageMaker
ml.Ad esempio, per le istanze P5, utilizzaml.p5.48xlargeinvece dip5.48xlarge.
Considerazioni sulla configurazione della rete per i SageMaker HyperPod cluster con Amazon EKS
-
Ogni istanza HyperPod del cluster supporta un'interfaccia di rete elastica (ENI). Per il numero massimo di pod per tipo di istanza, consulta la tabella seguente.
Tipo di istanza Numero massimo di pod ml.p4d.24xlarge 49 ml.p4de.24xlarge 49 ml.p5.48xlarge 49 ml.trn1.32xlarge 49 ml.trn1n.32xlarge 49 ml.g5.xlarge 14 ml.g5.2xlarge 14 ml.g5.4xlarge 29 ml.g5.8xlarge 29 ml.g5.12xlarge 49 ml.g5.16xlarge 29 ml.g5.24xlarge 49 ml.g5.48xlarge 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xlarge 29 ml.c5.18xlarge 49 ml.c5.24xlarge 49 ml.c5n.large 9 ml.c5n.2xlarge 14 ml.c5n.4xlarge 29 ml.c5n.9xlarge 29 ml.c5n.18xlarge 49 ml.m5.large 9 ml.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 ml.t3.medium 5 ml.t3.large 11 ml.t3.xlarge 14 ml.t3.2xlarge 14 ml.g6.xlarge 14 ml.g6.2xlarge 14 ml.g6.4xlarge 29 ml.g6.8xlarge 29 ml.g6.12xlarge 29 ml.g6.16xlarge 49 ml.g6.24xlarge 49 ml.g6.48xlarge 49 ml.gr6.4xlarge 29 ml.gr6.8xlarge 29 ml.g6e.xlarge 14 ml.g6e.2xlarge 14 ml.g6e.4xlarge 29 ml.g6e.8xlarge 29 ml.g6e.12xlarge 29 ml.g6e.16xlarge 49 ml.g6e.24xlarge 49 ml.g6e.48xlarge 49 ml.p5e.48xlarge 49 -
Per impostazione predefinita, solo i Pod con
hostNetwork = trueaccesso ad Amazon EC2 Instance Metadata Service (IMDS). Utilizza l'identità Amazon EKS Pod o i ruoli IAM per gli account di servizio (IRSA) per gestire l'accesso alle AWS credenziali per i pod. -
HyperPod I cluster orchestrati da EKS supportano due modalità di indirizzamento IP, che consentono la configurazione con o IPv4 per i cluster IPv6 IPv6 Amazon EKS in ambienti VPC e sottorete IPv6 abilitati. Per ulteriori informazioni, consulta Configurazione SageMaker HyperPod con un Amazon VPC personalizzato.
Considerazioni sull' HyperPod utilizzo delle funzionalità di resilienza del cluster
-
La sostituzione automatica dei nodi non è supportata per le istanze CPU.
-
L'agente di HyperPod monitoraggio dello stato deve essere installato affinché il ripristino automatico del nodo funzioni. L’agente può essere installato con Helm. Per ulteriori informazioni, consulta Installazione di pacchetti sul cluster Amazon EKS con Helm.
-
L'agente di controllo HyperPod approfondito e monitoraggio dello stato supporta istanze GPU e Trn.
-
SageMaker L'intelligenza artificiale applica la seguente macchia ai nodi quando sono sottoposti a controlli di integrità approfonditi:
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: UnschedulableNota
Non puoi aggiungere taint personalizzati ai nodi nei gruppi di istanze con
DeepHealthChecksattivato.
Una volta che il cluster Amazon EKS è in esecuzione, configura il cluster utilizzando il gestore di pacchetti Helm come indicato Installazione di pacchetti sul cluster Amazon EKS con Helm prima di creare il HyperPod cluster.