Contribuisci a migliorare questa pagina
Per contribuire a questa guida per l’utente, seleziona il link Edit this page on GitHub che si trova nel riquadro destro di ogni pagina.
Panoramica dell’intelligenza artificiale (IA) e del machine learning (ML) su Amazon EKS
Amazon Elastic Kubernetes Service (EKS) è una piattaforma Kubernetes gestita che consente alle organizzazioni di implementare, gestire e scalare carichi di lavoro di IA e machine learning (ML) con flessibilità e controllo senza precedenti. Basato sull’ecosistema open source Kubernetes, EKS ti consente di sfruttare le tue competenze Kubernetes già esistenti e si integra perfettamente con strumenti e servizi AWS open source.
Se stai addestrando modelli su larga scala, eseguendo inferenze online in tempo reale o implementando applicazioni di IA generativa, EKS offre le prestazioni, la scalabilità e l’efficienza dei costi richieste dai tuoi progetti di IA/ML.
Perché scegliere EKS per IA/ML?
EKS è una piattaforma Kubernetes gestita che ti aiuta a implementare e gestire carichi di lavoro di IA/ML complessi. Basata sull’ecosistema open source Kubernetes, si integra con i servizi AWS, fornendo il controllo e la scalabilità necessari per progetti avanzati. Per i team alle prime armi con le implementazioni di IA/ML, le competenze Kubernetes esistenti vengono trasferite direttamente, consentendo un’orchestrazione efficiente di più carichi di lavoro.
EKS supporta tutto, dalla personalizzazione del sistema operativo alla scalabilità del calcolo, e la sua base open source promuove la flessibilità tecnologica, preservando la scelta per le future decisioni sull’infrastruttura. La piattaforma offre le prestazioni e le opzioni di ottimizzazione richieste dai carichi di lavoro di IA/ML, supportando funzionalità come:
-
Controllo completo del cluster per ottimizzare costi e configurazioni senza astrazioni nascoste
-
Latenza inferiore al secondo per carichi di lavoro di inferenza in tempo reale in produzione
-
Personalizzazioni avanzate come GPU multi-istanza, strategie multi-cloud e ottimizzazione a livello di sistema operativo
-
Capacità di centralizzare i carichi di lavoro utilizzando EKS come orchestratore unificato su pipeline di IA/ML
Casi d’uso principali
Amazon EKS offre una piattaforma robusta per un’ampia gamma di carichi di lavoro di IA/ML, supportando varie tecnologie e modelli di implementazione:
-
Inferenza in tempo reale (online): EKS consente previsioni immediate sui dati in entrata, come il rilevamento delle frodi, con una latenza inferiore al secondo utilizzando strumenti come TorchServe, Triton Inference Server
e KServe su istanze Amazon EC2 Inf1 e Inf2 . Questi carichi di lavoro traggono vantaggio dal dimensionamento dinamico con Karpenter e KEDA, sfruttando al contempo Amazon EFS per lo sharding dei modelli tra i pod. Amazon ECR Pull Through Cache (PTC) accelera gli aggiornamenti dei modelli, mentre i volumi di dati Bottlerocket con volumi ottimizzati per Amazon EBS garantiscono un accesso rapido ai dati. -
Addestramento generale dei modelli: le organizzazioni sfruttano EKS per addestrare modelli complessi su set di dati di grandi dimensioni per periodi prolungati utilizzando Kubeflow Training Operator (KRO)
, Ray Serve e Torch Distributed Elastic su istanze Amazon EC2 P4d and Amazon EC2 Trn1 . Questi carichi di lavoro sono supportati dalla pianificazione in batch con strumenti come Volcano , Yunikorn e Kueue . Amazon EFS consente la condivisione dei checkpoint del modello, mentre Amazon S3 gestisce importazione/esportazione del modello con policy del ciclo di vita per la gestione delle versioni. -
Pipeline di generazione potenziata da recupero dati (RAG): EKS gestisce chatbot di assistenza clienti e applicazioni simili integrando processi di recupero e generazione. Questi carichi di lavoro utilizzano spesso strumenti come Argo Workflows
e Kubeflow per l’orchestrazione e database vettoriali come Pinecone , Weaviate o Amazon OpenSearch ed espongono le applicazioni agli utenti tramite Application Load Balancer Controller (LBC). NVIDIA NIM ottimizza l’utilizzo della GPU, mentre Prometheus e Grafana monitorano l’utilizzo delle risorse. -
Implementazione di modelli di IA generativa: le aziende implementano servizi di creazione di contenuti in tempo reale su EKS, come la generazione di testo o immagini, utilizzando Ray Serve
, vLLM e Triton Inference Server sugli acceleratori Amazon EC2 G5 e Inferentia . Queste implementazioni ottimizzano le prestazioni e l’utilizzo della memoria per modelli su larga scala. JupyterHub consente lo sviluppo iterativo, Gradio fornisce semplici interfacce web e il driver CSI Mountpoint di S3 consente di montare bucket S3 come file system per accedere a file di modello di grandi dimensioni. -
Inferenza in batch (offline): le organizzazioni elaborano set di dati di grandi dimensioni in modo efficiente tramite processi pianificati con AWS Batch o Volcano
. Questi carichi di lavoro utilizzano spesso istanze EC2 Inf1 e Inf2 per chip AWS Inferentia , istanze Amazon EC2 G4dn per GPU NVIDIA T4 o istanze CPU c5 e c6i , massimizzando l’utilizzo delle risorse durante le ore non di punta per le attività di analisi. I driver AWS Neuron SDK e GPU NVIDIA ottimizzano le prestazioni, mentre MIG/TS consente la condivisione della GPU. Le soluzioni di archiviazione includono Amazon S3 e Amazon EFS e FSx per Lustre , con driver CSI per varie classi di archiviazione. La gestione dei modelli sfrutta strumenti come Kubeflow Pipelines , Argo Workflows e Ray Cluster , mentre il monitoraggio è gestito da Prometheus, Grafana e strumenti di monitoraggio dei modelli personalizzati.
Casi di studio
I clienti scelgono Amazon EKS per vari motivi, come l’ottimizzazione dell’utilizzo della GPU o l’esecuzione di carichi di lavoro di inferenza in tempo reale con latenza inferiore al secondo, come dimostrato nei seguenti casi di studio. Per un elenco di tutti i casi di studio relativi ad Amazon EKS, consulta AWS Customer Success Stories
-
Unitary
elabora 26 milioni di video al giorno utilizzando l’IA per la moderazione dei contenuti, richiedendo un’inferenza ad alto throughput e bassa latenza e ha ottenuto una riduzione dell’80% dei tempi di avvio dei container, garantendo una risposta rapida agli eventi di scalabilità in base alle fluttuazioni del traffico. -
Miro
, la piattaforma di collaborazione visiva che supporta 70 milioni di utenti in tutto il mondo, ha registrato una riduzione dell’80% dei costi di elaborazione rispetto ai precedenti cluster Kubernetes autogestiti. -
Synthesia
, che offre ai clienti la creazione di video con IA generativa come servizio per consentire ai clienti di creare video realistici a partire da prompt di testo, ha ottenuto un miglioramento di 30 volte nel throughput per l’addestramento dei modelli ML. -
Harri
, che fornisce tecnologia HR per il settore alberghiero, ha raggiunto una riduzione orizzontale più rapida del 90% in risposta ai picchi di domanda e ha ridotto i costi di elaborazione del 30% eseguendo la migrazione ai processori AWS Graviton . -
Ada Support
, una società di automazione del servizio clienti basata sull’IA, ha ottenuto una riduzione del 15% dei costi di elaborazione insieme a un aumento del 30% dell’efficienza nell’elaborazione. -
Snorkel AI
, che consente alle aziende di creare e adattare modelli di base e modelli linguistici di grandi dimensioni, ha ottenuto risparmi sui costi di oltre il 40% implementando meccanismi di scalabilità intelligenti per le risorse GPU.
Inizia a usare il machine learning su EKS
Per iniziare a pianificare e utilizzare le piattaforme e i carichi di lavoro di machine learning su EKS nel cloud AWS, vai alla sezione Risorse per iniziare a utilizzare IA/ML su Amazon EKS.