Scalabilità automatica su EKS SageMaker HyperPod - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Scalabilità automatica su EKS SageMaker HyperPod

Amazon SageMaker HyperPod fornisce una soluzione gestita di scalabilità automatica dei nodi basata su Karpenter per i cluster creati con l'orchestrazione EKS. Karpenter è un gestore del ciclo di vita dei nodi Kubernetes open source creato da Kubernetes che ottimizza la scalabilità dei cluster e l'efficienza dei costi. AWS A differenza delle implementazioni Karpenter autogestite, l'implementazione gestita di Karpenter elimina il sovraccarico operativo legato all'installazione, SageMaker HyperPod alla configurazione e alla manutenzione dei controller Karpenter, fornendo al contempo resilienza e tolleranza ai guasti integrate. Questa soluzione di scalabilità automatica gestita si basa sulle funzionalità di provisioning continuo di cui dispone e consente di scalare in modo efficiente le risorse HyperPod di calcolo per i carichi di lavoro di addestramento e inferenza con gestione e ripristino automatici degli errori.

I prezzi sono calcolati solo in base all'uso effettivo. Sei responsabile del pagamento di tutte le istanze di elaborazione il cui provisioning viene eseguito automaticamente tramite la scalabilità automatica in base ai prezzi standard. SageMaker HyperPod Per informazioni dettagliate sui prezzi, consulta Amazon SageMaker AI.

Abilitando la scalabilità automatica basata su Karpenter con HyperPod, hai accesso a:

  • Ciclo di vita gestito dal servizio: HyperPod gestisce l'installazione, gli aggiornamenti e la manutenzione di Karpenter, eliminando il sovraccarico operativo.

  • Provisioning just-in-time: Karpenter osserverà i pod in sospeso e allocherà le risorse di calcolo necessarie per i carichi di lavoro dal pool on demand.

  • Riduzione verticale a zero: riduci verticalmente i nodi a zero senza gestire un’infrastruttura di controller dedicata.

  • Selezione dei nodi in base al carico di lavoro: Karpenter sceglie i tipi di istanze ottimali in base ai requisiti dei pod, alle zone di disponibilità e ai prezzi per ridurre al minimo i costi.

  • Consolidamento automatico dei nodi: Karpenter valuta regolarmente i cluster per individuare opportunità di ottimizzazione, spostando i carichi di lavoro per eliminare i nodi sottoutilizzati.

  • Resilienza integrata: sfrutta i meccanismi integrati di tolleranza agli errori e HyperPod ripristino dei nodi.

I seguenti argomenti spiegano come abilitare la scalabilità HyperPod automatica con Karpenter.

Prerequisiti

  • Il provisioning continuo è abilitato sul cluster. HyperPod Abilita il provisioning continuo impostando su --node-provisioning-mode al Continuous momento della creazione del cluster SageMaker HyperPod . Per ulteriori informazioni, consulta Provisioning continuo per operazioni cluster avanzate su Amazon EKS.

  • Deve essere installata la versione 1.0.742.0_1.0.241.0 o successiva dell’agente di monitoraggio dell’integrità. Necessario per le operazioni e il monitoraggio del HyperPod cluster. L’agente deve essere configurato prima di abilitare il dimensionamento automatico di Karpenter per garantire la creazione di report corretti sull’integrità del cluster e la gestione del ciclo di vita dei nodi. Per ulteriori informazioni, consulta Sistema di monitoraggio della salute.

  • Solo se sul cluster Amazon EKS è in esecuzione Karpenter, le versioni di NodePool e NodeClaim di Karpenter devono essere v1.

  • NodeRecovery deve essere impostato su automatico. Per ulteriori informazioni, consulta Ripristino automatico del nodo.