

 **Contribuisci a migliorare questa pagina** 

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Per contribuire a questa guida per l'utente, scegli il GitHub link **Modifica questa pagina** nel riquadro destro di ogni pagina.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Configura il cluster Amazon EKS per i AI/ML carichi di lavoro
<a name="ml-cluster-setup"></a>

**Suggerimento**  
 [Registrati](https://events.eksworkshop.com/workshops/genai/) ai prossimi AI/ML workshop Amazon EKS.

Questa sezione ti guida nella creazione di un cluster Amazon EKS pronto per eseguire carichi di lavoro di inferenza, tra cui l'elaborazione con GPU, lo stack di monitoraggio e lo storage Amazon S3 per i pesi dei modelli, insieme alle autorizzazioni IAM necessarie. AWS 

## Panoramica dell’architettura
<a name="_architecture_overview"></a>

La configurazione crea la seguente infrastruttura:
+  **Cluster EKS con GPU-enabled nodi**: A Karpenter-managed NodePool che fornisce dinamicamente istanze G-family GPU utilizzando la capacità Spot con fallback. On-Demand 
+  **Stack di monitoraggio**: Prometheus analizza i parametri di cluster, nodi e GPU e li scrive in remoto su Amazon Managed Service for Prometheus (AMP). Grafana fornisce dashboard per la visualizzazione. NVIDIA DCGM Exporter aggiunge GPU-specific parametri tra cui utilizzo, memoria, temperatura, consumo energetico, larghezza di banda NVLink e attività dei tensori.
+  Bucket **S3 per i pesi dei modelli: un bucket** Amazon S3 per la memorizzazione dei pesi dei modelli, con un'associazione EKS Pod Identity che consente l'accesso ai pod dei carichi di lavoro. read/write 

## Opzioni di calcolo del cluster
<a name="_cluster_compute_options"></a>

La guida fornisce due percorsi per configurare il cluster. Scegline uno e seguilo in modo coerente in tutti i passaggi.
+  **EKS Auto Mode**: un singolo comando effettua il provisioning di un cluster EKS con EKS Auto Mode abilitato. Tutti i componenti richiesti vengono forniti immediatamente, tra cui l' Karpenter-based auto-scaling, l'agente di monitoraggio dei nodi EKS, il fast container pull con SOCI e il plug-in per dispositivi NVIDIA.
+  **Self-managed Karpenter**: puoi installare e configurare ogni componente in modo esplicito: Karpenter via`eksctl`, riparazione automatica dei nodi tramite il suo feature gate, l'agente di monitoraggio dei nodi EKS come componente aggiuntivo EKS e il plug-in per dispositivi NVIDIA tramite Helm. Puoi anche creare una versione personalizzata `EC2NodeClass` che utilizza le AMI EKS-optimized NVIDIA AL2023 e configura SOCI.

## Cosa configurerai
<a name="_what_youll_set_up"></a>


| Fase | Description | 
| --- | --- | 
|  **Crea un cluster**  | Esegui il provisioning del piano di controllo EKS e dei componenti a livello di cluster necessari per i carichi di lavoro GPU. | 
|  **Crea nodi GPU con provisioning dinamico**  | Definisci una GPU dinamica che effettui il provisioning delle istanze G-family GPU NodePool man mano che vengono pianificati i carichi di lavoro. | 
|  **Esegui il test con un contenitore di esempio**  | Convalida la configurazione dall'inizio alla fine eseguendo un `nvidia-smi` pod che attiva Karpenter per il provisioning di un nodo. GPU-enabled  | 
|  **Aggiungi capacità riservata (opzionale)**  | Allega un codice ODCR ( On-Demand Capacity Reserved-First) al tuo NodeClass indirizzo riservato con fallback. Spot/On-Demand  | 
|  **Installa il monitoraggio**  | Implementa kube-prometheus-stack (Prometheus \+ Grafana) con scrittura remota su AMP, oltre a NVIDIA DCGM Exporter per le metriche GPU. | 
|  **Crea un bucket di pesi per modelli**  | Crea un bucket S3 e configura EKS Pod Identity in modo che i pod del carico di lavoro possano leggere e scrivere i pesi dei modelli. | 

## Nozioni di base
<a name="_get_started"></a>

Per istruzioni dettagliate sull'utilizzo della CLI, consulta AWS . [Configura il cluster Amazon EKS per i AI/ML carichi di lavoro utilizzando le CLI](ml-cluster-setup-cli.md)