Come funziona Misurazione dell’utilizzo Creazione di un cluster con provisioning continuo abilitato Requisiti di capacità minima () MinCount Gruppi di istanze flessibili

Provisioning continuo per operazioni cluster avanzate su Amazon EKS

SageMaker HyperPod I cluster Amazon creati con l'orchestrazione di Amazon EKS ora supportano il provisioning continuo, una nuova funzionalità che consente una maggiore flessibilità ed efficienza nell'esecuzione di carichi di lavoro su larga scala. AI/ML Il provisioning continuo consente di iniziare rapidamente l’addestramento, scalare senza problemi, eseguire la manutenzione senza interrompere le operazioni e avere una visibilità granulare sulle operazioni del cluster.

Nota

Il provisioning continuo è disponibile come configurazione opzionale per i cluster creati con l'orchestrazione EKS. HyperPod HyperPod i cluster creati con l'orchestrazione Slurm supportano anche il provisioning continuo. Per informazioni dettagliate, vedi Provisioning continuo per operazioni avanzate del cluster con Slurm.

Come funziona

Il sistema di provisioning continuo introduce un’architettura dello stato desiderato che sostituisce il tradizionale modello basato sulla richiesta. Questa nuova architettura consente operazioni parallele e non bloccanti su diversi livelli di risorse, mantenendo al contempo la stabilità e le prestazioni del sistema. Il sistema di provisioning continuo:

Accetta la richiesta: registra il numero delle istanze di destinazione per ogni gruppo di istanze
Avvia il provisioning: avvia le istanze per raggiungere il conteggio previsto

Monitora lo stato di avanzamento: monitora ogni tentativo di avvio dell’istanza e registra lo stato
Gestisce gli errori: riprova automaticamente gli avvii non riusciti

Il provisioning continuo è disabilitato per impostazione predefinita. Per utilizzare questa funzionalità, imposta --node-provisioning-mode su Continuous.

Con il provisioning continuo abilitato, puoi avviare più operazioni di dimensionamento contemporaneamente senza attendere il completamento delle operazioni precedenti. Ciò consente di scalare contemporaneamente diversi gruppi di istanze nello stesso cluster e di inviare più richieste di dimensionamento allo stesso gruppo di istanze.

Il provisioning continuo consente inoltre l'accesso e il monitoraggio dettagliato degli eventi DescribeClusterEvente ListClusterEventla visibilità operativa.

Misurazione dell’utilizzo

HyperPod i cluster con provisioning continuo utilizzano la misurazione a livello di istanza per fornire una fatturazione accurata che rifletta l'utilizzo effettivo delle risorse. Questo approccio di misurazione si differenzia dalla tradizionale fatturazione a livello di cluster in quanto tiene traccia di ogni istanza in modo indipendente.

Instance-level fatturazione

Con il provisioning continuo, la fatturazione inizia e si arresta a livello della singola istanza anziché attendere le modifiche dello stato a livello di cluster. Questa funzionalità fornisce i seguenti vantaggi:

Accuratezza di fatturazione: la fatturazione inizia quando inizia l’esecuzione dello script del ciclo di vita. Se lo script del ciclo di vita non riesce, l’allocazione dell’istanza verrà ritentata e verrà addebitata la durata del runtime dello script del ciclo di vita.
Misurazione indipendente: il ciclo di vita della fatturazione di ogni istanza viene gestito separatamente, evitando errori di fatturazione a cascata
Real-time aggiornamenti di fatturazione: la fatturazione inizia quando un'istanza inizia a eseguire lo script del ciclo di vita e si interrompe quando l'istanza entra in uno stato di terminazione

Ciclo di vita della fatturazione

Ogni istanza del HyperPod cluster segue questo ciclo di vita di fatturazione:

La fatturazione inizia: quando l’istanza viene avviata correttamente e inizia a eseguire lo script di configurazione del ciclo di vita
La fatturazione continua: per tutta la durata operativa dell’istanza
La fatturazione si arresta: quando l’istanza entra in uno stato di terminazione, indipendentemente dal motivo della terminazione

Nota

La fatturazione non inizia in caso di errori di avvio delle istanze. Se l’avvio di un’istanza non riesce a causa di una capacità insufficiente o di altri problemi, non verrà addebitato alcun costo per il tentativo non riuscito. La fatturazione viene calcolata a livello di istanza e i costi sono aggregati e riportati nel nome della risorsa Amazon (ARN) del cluster.

Creazione di un cluster con provisioning continuo abilitato

Nota

È necessario che sia configurato un cluster Amazon EKS esistente con la rete VPC e che sia installato il grafico Helm richiesto. Inoltre, devi preparare uno script di configurazione del ciclo di vita e devi caricarlo in un bucket Amazon S3 a cui può accedere il tuo ruolo di esecuzione. Per ulteriori informazioni, consulta Gestione dei SageMaker HyperPod cluster orchestrati da Amazon EKS.

La seguente AWS CLI operazione crea un HyperPod cluster con un gruppo di istanze e il provisioning continuo abilitato.


aws sagemaker create-cluster \ 
--cluster-name $HP_CLUSTER_NAME \
--orchestrator 'Eks={ClusterArn='$EKS_CLUSTER_ARN'}' \
--vpc-config '{
   "SecurityGroupIds": ["'$SECURITY_GROUP'"],
   "Subnets": ["'$SUBNET'"]
}' \
--instance-groups '{
   "InstanceGroupName": "ig-1",
   "InstanceType": "ml.c5.2xlarge",
   "InstanceCount": 2,
   "LifeCycleConfig": {
      "SourceS3Uri": "s3://'$BUCKET_NAME'",
      "OnCreate": "on_create_noop.sh"
   },
   "ExecutionRole": "'$EXECUTION_ROLE'",
   "ThreadsPerCore": 1,
   "TrainingPlanArn": ""
}' \
--node-provisioning-mode Continuous


// Expected Output:
{
    "ClusterArn": "arn:aws:sagemaker:us-west-2:<account-id>:cluster/<cluster-id>"
}

Dopo aver creato il cluster, puoi utilizzare ListClusterNodeso DescribeClusterNodeper trovare ulteriori informazioni sui nodi del cluster.

La chiamata a queste operazioni restituirà un ClusterInstanceStatusDetailsoggetto con uno dei seguenti valori:

Running: il nodo è integro e registrato con l’orchestratore del cluster (EKS).
Failure: il provisioning del nodo non è riuscito, ma il sistema riprova automaticamente a eseguire il provisioning con una nuova istanza EC2.
Pending: è in corso il provisioning o il riavvio del nodo.
ShuttingDown: La chiusura del nodo è in corso. Il nodo viene rimosso correttamente dal cluster oppure passa in stato di errore se si verificano errori durante la terminazione.
SystemUpdating: Il nodo è sottoposto a patch AMI, attivate manualmente o come parte dell'applicazione di patch ai cronjob.
DeepHealthCheckInProgress: Sono in corso controlli sanitari approfonditi (DHC). Questa operazione potrebbe richiedere da pochi minuti a diverse ore a seconda della natura dei test. I nodi danneggiati vengono sostituiti e i nodi integri passano in stato Running.
NotFound: Usato in BatchAddClusterNodesrisposta a indicare che un nodo è stato eliminato durante la riproduzione idempotente.

Requisiti di capacità minima () MinCount

La MinCount funzionalità consente di specificare il numero minimo di istanze che devono essere fornite correttamente prima che un gruppo di istanze passi allo stato. InService Questa funzionalità offre un migliore controllo sulle operazioni di scalabilità e aiuta a prevenire scenari in cui i gruppi di istanze con provisioning parziale non possono essere utilizzati efficacemente per i carichi di lavoro di formazione.

Importante

MinCount non è una garanzia permanente di capacità minima. Assicura che il numero minimo di istanze specificato sia disponibile solo quando il gruppo di istanze diventa InService disponibile per la prima volta. Durante le normali operazioni, ad esempio sostituzioni di istanze non funzionanti o attività di manutenzione, MinCount possono verificarsi brevi cali di seguito.

Come funziona MinCount

Quando si crea o si aggiorna un gruppo di istanze con MinCount enabled, si verifica il seguente comportamento:

Nuovi gruppi di istanze: il gruppo di istanze rimane Creating attivo fino a quando almeno MinCount le istanze non vengono fornite correttamente e sono pronte. Una volta raggiunta questa soglia, il gruppo di istanze passa a. InService
Gruppi di istanze esistenti: quando si MinCount esegue l'aggiornamento su un gruppo di istanze esistente, lo stato cambia Updating fino al soddisfacimento del nuovo MinCount requisito.
Scalabilità continua: se TargetCount è maggiore di MinCount, il sistema di ridimensionamento continuo continua a tentare di avviare istanze aggiuntive finché non viene raggiunto. TargetCount
Timeout e rollback: se MinCount non possono essere soddisfatti entro 3 ore, il sistema ripristina automaticamente il gruppo di istanze all'ultimo stato valido conosciuto. Per ulteriori informazioni sul comportamento di rollback, vedete Comportamento automatico del rollback.

Stato del gruppo di istanze durante le operazioni MinCount

I gruppi di istanze MinCount configurati presentano il seguente comportamento di stato:

Creazione in corso: Per i nuovi gruppi di istanze quando CurrentCount < MinCount. Il gruppo di istanze rimane in questo stato fino al raggiungimento del requisito di capacità minima.
Aggiornamento in corso: Per i gruppi di istanze esistenti quando MinCount viene modificato e CurrentCount < MinCount. Il gruppo di istanze rimane in questo stato finché non viene soddisfatto il nuovo requisito di capacità minima.
InService: Quando MinCount ≤ CurrentCount ≤ TargetCount. Il gruppo di istanze è pronto per l'uso e tutte le operazioni di modifica sono sbloccate.

Durante il Creating nostro Updating status, si applicano le seguenti restrizioni:

Operazioni mutanti come BatchAddClusterNodesBatchDeleteClusterNodes, o UpdateClusterSoftware sono bloccate
È comunque possibile modificare TargetCount i valori MinCount e per correggere gli errori di configurazione
L'eliminazione di gruppi di cluster e istanze è sempre consentita

Comportamento automatico del rollback

Se un gruppo di istanze non riesce a raggiungerlo MinCount entro 3 ore, il sistema avvia automaticamente un rollback per evitare un'attesa indefinita:

Nuovi gruppi di istanze: MinCount e TargetCount vengono reimpostati su (0, 0)
Gruppi di istanze esistenti: MinCount e TargetCount vengono ripristinati ai loro valori dall'ultimo InService stato
Selezione delle istanze da terminare: se è necessario terminare le istanze durante il rollback, il sistema seleziona prima le istanze non integre e poi quelle a cui è stato effettuato il provisioning più recente.
Transizione dello stato: il gruppo di istanze passa immediatamente InService allo stato dopo l'avvio del rollback, consentendo al sistema di scalabilità continua di gestire la capacità in base alle impostazioni di rollback

Il timeout di 3 ore si ripristina ogni volta che viene aggiornato. MinCount Ad esempio, se si esegue l'aggiornamento MinCount più volte, il periodo di timeout ricomincia dall'aggiornamento più recente.

MinCount eventi

Il sistema emette eventi specifici per aiutarvi a tenere traccia MinCount delle operazioni:

Capacità minima raggiunta: emessa quando un gruppo di istanze raggiunge con successo la propria posizione MinCount e passa a InService
Rollback avviato: emesso quando scade il timeout di 3 ore e inizia il rollback automatico

È possibile monitorare questi eventi utilizzando per tenere traccia dello stato di avanzamento delle ListClusterEventsoperazioni. MinCount

Utilizzo delle API

MinCount viene specificato utilizzando il MinInstanceCount parametro nelle configurazioni del gruppo di istanze:


aws sagemaker create-cluster \
--cluster-name $HP_CLUSTER_NAME \
--orchestrator 'Eks={ClusterArn='$EKS_CLUSTER_ARN'}' \
--vpc-config '{
   "SecurityGroupIds": ["'$SECURITY_GROUP'"],
   "Subnets": ["'$SUBNET'"]
}' \
--instance-groups '{
   "InstanceGroupName": "worker-group",
   "InstanceType": "ml.p4d.24xlarge",
   "InstanceCount": 64,
   "MinInstanceCount": 50,
   "LifeCycleConfig": {
      "SourceS3Uri": "s3://'$BUCKET_NAME'",
      "OnCreate": "on_create.sh"
   },
   "ExecutionRole": "'$EXECUTION_ROLE'"
}' \
--node-provisioning-mode Continuous

Considerazioni chiave per MinCount l'utilizzo:

MinInstanceCountdeve essere compreso tra 0 e il valore InstanceCount (incluso) del gruppo di istanze specificato nella CreateClusternostra richiesta UpdateCluster
L'impostazione MinInstanceCount su 0 (impostazione predefinita) mantiene il comportamento di ridimensionamento continuo standard
L'impostazione MinInstanceCount uguale a InstanceCount fornisce un comportamento di ridimensionamento «tutto o niente»
MinCount è disponibile solo per i cluster impostati su NodeProvisioningMode Continuous

Gruppi di istanze flessibili

I gruppi di istanze flessibili consentono di specificare più tipi di istanze all'interno di un singolo gruppo di istanze. Ciò semplifica la gestione dei cluster riducendo il numero di gruppi di istanze da creare e gestire, in particolare per i carichi di lavoro di inferenza che utilizzano la scalabilità automatica.

Con gruppi di istanze flessibili,: HyperPod

Tentativi di effettuare il provisioning delle istanze utilizzando il primo tipo di istanza dell'elenco
Torna ai tipi di istanza successivi se la capacità non è disponibile
Termina prima le istanze del tipo di istanza con la priorità più bassa durante il ridimensionamento

Nota

I gruppi di istanze flessibili sono disponibili solo per i cluster impostati su. NodeProvisioningMode Continuous Le InstanceRequirements proprietà InstanceType and si escludono a vicenda: è possibile specificare l'una o l'altra, ma non entrambe.

Crea un cluster con un gruppo di istanze flessibile

Utilizza InstanceRequirements invece di InstanceType creare un gruppo di istanze flessibile. L'ordine dei tipi di istanze nell'elenco determina la priorità per il provisioning.


aws sagemaker create-cluster \
--cluster-name $HP_CLUSTER_NAME \
--orchestrator 'Eks={ClusterArn='$EKS_CLUSTER_ARN'}' \
--vpc-config '{
   "SecurityGroupIds": ["'$SECURITY_GROUP'"],
   "Subnets": ["'$SUBNET_AZ1'", "'$SUBNET_AZ2'"]
}' \
--instance-groups '[{
   "InstanceGroupName": "flexible-ig",
   "InstanceRequirements": {
      "InstanceTypes": ["ml.p5.48xlarge", "ml.p4d.24xlarge", "ml.g6.48xlarge"]
   },
   "InstanceCount": 10,
   "LifeCycleConfig": {
      "SourceS3Uri": "s3://'$BUCKET_NAME'",
      "OnCreate": "on_create.sh"
   },
   "ExecutionRole": "'$EXECUTION_ROLE'"
}]' \
--node-provisioning-mode Continuous

Scalabilità mirata con BatchAddClusterNodes

Quando si utilizzano gruppi di istanze flessibili, è possibile BatchAddClusterNodesaggiungere nodi con tipi di istanze e zone di disponibilità specifici. Ciò è particolarmente utile quando la scalabilità automatica di Karpenter determina il tipo di istanza e la zona di disponibilità ottimali per il carico di lavoro.


aws sagemaker batch-add-cluster-nodes \
--cluster-name $HP_CLUSTER_NAME \
--nodes-to-add '[
   {
      "InstanceGroupName": "flexible-ig",
      "IncrementTargetCountBy": 1,
      "InstanceTypes": ["ml.p5.48xlarge"],
      "AvailabilityZones": ["us-west-2a"]
   }
]'

Visualizza i dettagli del gruppo di istanze flessibili

Utilizzalo DescribeClusterper visualizzare i tipi di istanze e la suddivisione per tipo del tuo gruppo di istanze flessibile. La risposta include:

InstanceRequirements— I tipi di istanze attuali e desiderati per il gruppo di istanze
InstanceTypeDetails— Un'analisi per tipo di istanza che mostra il conteggio e la configurazione di ogni tipo di istanza nel gruppo

Utilizzo di gruppi di istanze flessibili con scalabilità automatica Karpenter

I gruppi di istanze flessibili si integrano con HyperPod la scalabilità automatica gestita da Karpenter. Per ulteriori informazioni sulla configurazione di Karpenter, consulta. Scalabilità automatica su EKS SageMaker HyperPod Quando fai riferimento a un gruppo di istanze flessibile in una HyperPodNodeClass configurazione, Karpenter automaticamente:

Rileva i tipi di istanze supportati dal gruppo di istanze flessibili
Seleziona il tipo di istanza e la zona di disponibilità ottimali in base ai requisiti e ai prezzi dei pod
Ridimensiona il gruppo di istanze flessibile utilizzando BatchAddClusterNodes chiamate mirate con il tipo di istanza e la zona di disponibilità selezionati

Nota

Quando Karpenter gestisce la scalabilità, utilizza la propria logica di selezione basata sui requisiti e sui prezzi dei pod per determinare il tipo di istanza da fornire. Ciò differisce dalla priorità in base all'ordine di elenco utilizzata dal HyperPod provisioning nativo (ad esempio CreateCluster andUpdateCluster), in cui viene sempre tentato per primo il primo tipo di istanza nell'elenco.

Ciò elimina la necessità di creare gruppi di istanze separati per ogni tipo di istanza e di configurare manualmente Karpenter per fare riferimento a più gruppi.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Eventi del cluster EKS

Scalabilità automatica su EKS HyperPod