Risorse per iniziare a utilizzare IA/ML su Amazon EKS - Amazon EKS

Contribuisci a migliorare questa pagina

Per contribuire a questa guida per l’utente, seleziona il link Edit this page on GitHub che si trova nel riquadro destro di ogni pagina.

Risorse per iniziare a utilizzare IA/ML su Amazon EKS

Per passare al Machine Learning su EKS, iniziare scegliendo tra questi modelli prescrittivi per preparare rapidamente un cluster EKS e un software e un hardware ML per iniziare a eseguire carichi di lavoro ML.

Workshop

Workshop sull’IA generativa su Amazon EKS

Ulteriori informazioni su come iniziare a utilizzare le applicazioni e l’inferenza di un modello linguistico di grandi dimensioni (LLM) su Amazon EKS. Ulteriori informazioni su come implementare e gestire carichi di lavoro LLM di livello di produzione. Attraverso laboratori pratici, sarà possibile scoprire come sfruttare Amazon EKS insieme a servizi e strumenti open source AWS per creare solide soluzioni LLM. L’ambiente del workshop fornisce tutta l’infrastruttura e gli strumenti necessari, consentendo di rivolgere la propria attenzione sull’apprendimento e sull’implementazione.

IA generativa su Amazon EKS con Neuron

Ulteriori informazioni su come iniziare a utilizzare le applicazioni e l’inferenza di un modello linguistico di grandi dimensioni (LLM) su Amazon EKS. Ulteriori informazioni su come implementare e gestire carichi di lavoro LLM di livello di produzione, implementare modelli RAG avanzati con database vettoriali e creare applicazioni LLM basate su dati utilizzando framework open source. Attraverso laboratori pratici, sarà possibile scoprire come sfruttare Amazon EKS insieme a servizi e strumenti open source AWS per creare solide soluzioni LLM. L’ambiente del workshop fornisce tutta l’infrastruttura e gli strumenti necessari, consentendo di rivolgere la propria attenzione sull’apprendimento e sull’implementazione.

Best practice

Gli argomenti incentrati su IA/ML nella guida alle best practice di Amazon EKS forniscono consigli dettagliati nelle seguenti aree per ottimizzare i carichi di lavoro IA/ML su Amazon EKS.

Calcolo e scalabilità automatica di IA/ML

Questa sezione descrive le beat practice per l’ottimizzazione del calcolo di IA/ML e della scalabilità automatica in Amazon EKS, concentrandosi sulla gestione delle risorse di GPU, sulla resilienza dei nodi e sulla scalabilità delle applicazioni. Offre strategie come la pianificazione dei carichi di lavoro con etichette e affinità di nodi note, l’utilizzo di blocchi di capacità per ML o prenotazioni della capacità on-demand e l’implementazione di controlli dell’integrità dei nodi con strumenti come un agente di monitoraggio dei nodi EKS.

Rete IA/ML

Questa sezione descrive le best practice per ottimizzare le reti IA/ML in Amazon EKS per migliorare le prestazioni e la scalabilità, incluse strategie come la selezione di istanze con una maggiore larghezza di banda della rete o Elastic Fabric Adapter (EFA) per la formazione distribuita, l’installazione di strumenti come MPI e NCCL e l’abilitazione della delega dei prefissi per aumentare gli indirizzi IP e migliorare i tempi di avvio dei pod.

Sicurezza IA/ML

Questa sezione si concentra sulla protezione dell’archiviazione di dati e sulla garanzia della conformità per i carichi di lavoro IA/ML su Amazon EKS, incluse pratiche come l’utilizzo di Amazon S3 con Servizio di gestione delle chiavi (KMS) AWS per la crittografia lato server (SSE-KMS), la configurazione di bucket con chiavi KMS regionali e chiavi bucket S3 per ridurre i costi, la concessione di autorizzazioni IAM per azioni KMS come la decrittografia dei pod EKS e l’audit con registri CloudTrail AWS.

Archiviazione IA/ML

Questa sezione fornisce le best practice per ottimizzare l’archiviazione nei carichi di lavoro IA/ML su Amazon EKS, incluse pratiche come la distribuzione di modelli che utilizzano driver CSI per montare servizi come S3, FSx for Lustre o EFS come volumi persistenti, la selezione dell’archiviazione in base alle esigenze del carico di lavoro (ad esempio, FSx per Lustre per la formazione distribuita con opzioni come Scratch-SSD o Persistent-SSD) e l’abilitazione di funzionalità come la compressione e lo striping dei dati.

Osservabilità IA/ML

Questa sezione si concentra sul monitoraggio e sull’ottimizzazione dell’utilizzo della GPU per i carichi di lavoro IA/ML su Amazon EKS per migliorare l’efficienza e ridurre i costi, incluse strategie come mirare all’utilizzo elevato della GPU con strumenti come approfondimenti sui container CloudWatch e DCGM-Exporter di NVIDIA integrato con Prometheus e Grafana, e parametri che ti consigliamo di analizzare per i propri carichi di lavoro IA/ML.

Prestazioni IA/ML

Questa sezione si concentra sul miglioramento della scalabilità e delle prestazioni delle applicazioni per i carichi di lavoro IA/ML su Amazon EKS attraverso la gestione delle immagini dei container e l’ottimizzazione dell’avvio, incluse pratiche come l’utilizzo di immagini di base piccole e leggere o container di deep learning AWS con sviluppi in più fasi, il precaricamento delle immagini tramite snapshot EBS o il preinserimento nella cache di runtime utilizzando DaemonSets o Deployment.

Architetture di riferimento

Si esplorino questi repository GitHub per architetture di riferimento, codice esemplificativo e utilità per implementare formazione e inferenza distribuite per carichi di lavoro IA/ML su Amazon EKS e altri servizi AWS.

Addestramento distribuito AWSome

Questo repository offre una raccolta di best practice, architetture di riferimento, esempi di addestramento dei modelli e utilità per addestrare modelli di grandi dimensioni su AWS. Supporta l’addestramento distribuito con Amazon EKS, inclusi modelli CloudFormation per cluster EKS, build personalizzate di AMI e container, casi di test per framework come PyTorch (DDP/FSDP, MegatronLM, NeMo) e JAX e strumenti per la convalida, l’osservabilità e il monitoraggio delle prestazioni come EFA Prometheus exporter e Nvidia Nsight Systems.

Inferenza AWSome

Questo repository fornisce architetture di riferimento e casi di test per ottimizzare le soluzioni di inferenza su AWS, con particolare attenzione ad Amazon EKS e alle istanze EC2 accelerate. Include configurazioni di infrastruttura per cluster VPC ed EKS, progetti per framework come NVIDIA NiMS, Tensorrt-LLM, Triton Inference Server e RayService, con esempi per modelli come Llama3-8B e Llama 3.1 405B. Offre implementazioni multinodo utilizzando K8s LeaderWorkerSet, dimensionamento automatico di EKS, GPU multi-istanza (MIG) e casi d’uso reali come un bot audio per ASR, inferenza e TTS.

Tutorial

Se si desidera configurare piattaforme e framework di Machine Learning in EKS, è necessario esplorare i tutorial descritti in questa sezione. Questi tutorial coprono tutto, dai modelli per sfruttare al meglio i processori delle GPU alla scelta degli strumenti di modellazione alla creazione di framework per settori specializzati.

Creare piattaforme di IA generativa su EKS

Eseguire framework di IA generativa specializzati su EKS

Massimizzare le prestazioni della GPU NVIDIA per ML su EKS

Eseguire carichi di lavoro di codifica video su EKS

Accelerare il caricamento delle immagini per i carichi di lavoro di inferenza

Monitoraggio dei carichi di lavoro ML