Creazione di un cluster HyperPod EKS con gruppo di istanze ristrette (RIG) - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Creazione di un cluster HyperPod EKS con gruppo di istanze ristrette (RIG)

Questo argomento illustra i passaggi per creare un cluster Amazon SageMaker HyperPod EKS con un gruppo di istanze con restrizioni (RIG). Una configurazione RIG nei cluster SageMaker HyperPod EKS fornisce un ambiente specializzato per l'addestramento dei modelli Amazon Nova. RIG ha le seguenti restrizioni:

  • I carichi di lavoro RIG vengono eseguiti in un VPC privo di Internet, tutte le entrate e le uscite sono strettamente regolamentate.

  • RIG ha delle restrizioni sull'osservabilità delle funzioni di Kubernetes come Kubectl exec e i log per garantire un ambiente sicuro per l'addestramento dei modelli Nova.

  • RIG consente solo la personalizzazione di immagini Nova e i lavori eseguiti con altre immagini verranno negati.

È possibile creare RIGs quando si configurano gruppi di istanze nel cluster HyperPod EKS. Sebbene sia possibile controllare le dimensioni e la scalabilità di queste risorse, non è possibile accedere direttamente ai nodi di lavoro. Questa architettura garantisce che i componenti Nova (pesi dei modelli, punti di controllo, dati di addestramento e codice) siano accessibili solo attraverso canali regolamentati e un sistema di account gestito dal servizio.

La personalizzazione del modello Nova SageMaker HyperPod si basa su un file system gestito dai servizi per Lustre FSx per ottenere prestazioni ottimali. Quando si crea un RIG, è necessario specificare la dimensione del volume e il throughput per il file system FSx for Lustre, che verrà montato su tutti i nodi di lavoro del gruppo di istanze. FSx for Lustre viene utilizzato per memorizzare checkpoint intermedi e stati interni del modello durante l'addestramento distribuito. Seguite le indicazioni fornite nella ricetta per scegliere una dimensione di volume e un throughput appropriati per garantire capacità e prestazioni sufficienti. FSx per Lustre i costi di utilizzo si applicheranno al tuo. Account AWS

Note importanti per RIG nei HyperPod cluster EKS

  • RIG supporta solo l'uso del ruolo di esecuzione per le autorizzazioni. Assicurati che il ruolo di esecuzione includa le autorizzazioni IAM necessarie, come l'accesso ad Amazon S3.

  • Quando utilizzi Amazon FSx for Lustre e Amazon S3 con servizi gestiti, assicurati che il file system FSx for Lustre sia di dimensioni adeguate al tuo carico di lavoro. Il manifesto dei dati di addestramento viene caricato su Amazon S3, che deve essere accessibile dal ruolo di esecuzione.

  • RIG deve essere creato o aggiornato su un nuovo cluster SageMaker HyperPod EKS, specificamente creato a partire dal 16 luglio 2025. I cluster creati prima di questa data potrebbero contenere versioni o configurazioni software incompatibili che non sono supportate da RIG.

Crea un cluster HyperPod EKS con RIG (Console)

Segui queste istruzioni per creare un cluster HyperPod EKS con un RIG utilizzando la HyperPod console.

Crea un cluster HyperPod EKS con RIG (CLI)

Segui queste istruzioni per creare un cluster HyperPod EKS con un RIG utilizzando. AWS CLI