Panoramica dell’intelligenza artificiale (IA) e del machine learning (ML) su Amazon EKS - Amazon EKS

Contribuisci a migliorare questa pagina

Per contribuire a questa guida per l’utente, seleziona il link Edit this page on GitHub che si trova nel riquadro destro di ogni pagina.

Panoramica dell’intelligenza artificiale (IA) e del machine learning (ML) su Amazon EKS

Amazon Elastic Kubernetes Service (EKS) è una piattaforma Kubernetes gestita che consente alle organizzazioni di implementare, gestire e scalare carichi di lavoro di IA e machine learning (ML) con flessibilità e controllo senza precedenti. Basato sull’ecosistema open source Kubernetes, EKS ti consente di sfruttare le tue competenze Kubernetes già esistenti e si integra perfettamente con strumenti e servizi AWS open source.

Se stai addestrando modelli su larga scala, eseguendo inferenze online in tempo reale o implementando applicazioni di IA generativa, EKS offre le prestazioni, la scalabilità e l’efficienza dei costi richieste dai tuoi progetti di IA/ML.

Perché scegliere EKS per IA/ML?

EKS è una piattaforma Kubernetes gestita che ti aiuta a implementare e gestire carichi di lavoro di IA/ML complessi. Basata sull’ecosistema open source Kubernetes, si integra con i servizi AWS, fornendo il controllo e la scalabilità necessari per progetti avanzati. Per i team alle prime armi con le implementazioni di IA/ML, le competenze Kubernetes esistenti vengono trasferite direttamente, consentendo un’orchestrazione efficiente di più carichi di lavoro.

EKS supporta tutto, dalla personalizzazione del sistema operativo alla scalabilità del calcolo, e la sua base open source promuove la flessibilità tecnologica, preservando la scelta per le future decisioni sull’infrastruttura. La piattaforma offre le prestazioni e le opzioni di ottimizzazione richieste dai carichi di lavoro di IA/ML, supportando funzionalità come:

  • Controllo completo del cluster per ottimizzare costi e configurazioni senza astrazioni nascoste

  • Latenza inferiore al secondo per carichi di lavoro di inferenza in tempo reale in produzione

  • Personalizzazioni avanzate come GPU multi-istanza, strategie multi-cloud e ottimizzazione a livello di sistema operativo

  • Capacità di centralizzare i carichi di lavoro utilizzando EKS come orchestratore unificato su pipeline di IA/ML

Casi d’uso principali

Amazon EKS offre una piattaforma robusta per un’ampia gamma di carichi di lavoro di IA/ML, supportando varie tecnologie e modelli di implementazione:

  • Inferenza in tempo reale (online): EKS consente previsioni immediate sui dati in entrata, come il rilevamento delle frodi, con una latenza inferiore al secondo utilizzando strumenti come TorchServe, Triton Inference Server e KServe su istanze Amazon EC2 Inf1 e Inf2. Questi carichi di lavoro traggono vantaggio dal dimensionamento dinamico con Karpenter e KEDA, sfruttando al contempo Amazon EFS per lo sharding dei modelli tra i pod. Amazon ECR Pull Through Cache (PTC) accelera gli aggiornamenti dei modelli, mentre i volumi di dati Bottlerocket con volumi ottimizzati per Amazon EBS garantiscono un accesso rapido ai dati.

  • Addestramento generale dei modelli: le organizzazioni sfruttano EKS per addestrare modelli complessi su set di dati di grandi dimensioni per periodi prolungati utilizzando Kubeflow Training Operator (KRO), Ray Serve e Torch Distributed Elastic su istanze Amazon EC2 P4d and Amazon EC2 Trn1. Questi carichi di lavoro sono supportati dalla pianificazione in batch con strumenti come Volcano, Yunikorn e Kueue. Amazon EFS consente la condivisione dei checkpoint del modello, mentre Amazon S3 gestisce importazione/esportazione del modello con policy del ciclo di vita per la gestione delle versioni.

  • Pipeline di generazione potenziata da recupero dati (RAG): EKS gestisce chatbot di assistenza clienti e applicazioni simili integrando processi di recupero e generazione. Questi carichi di lavoro utilizzano spesso strumenti come Argo Workflows e Kubeflow per l’orchestrazione e database vettoriali come Pinecone, Weaviate o Amazon OpenSearch ed espongono le applicazioni agli utenti tramite Application Load Balancer Controller (LBC). NVIDIA NIM ottimizza l’utilizzo della GPU, mentre Prometheus e Grafana monitorano l’utilizzo delle risorse.

  • Implementazione di modelli di IA generativa: le aziende implementano servizi di creazione di contenuti in tempo reale su EKS, come la generazione di testo o immagini, utilizzando Ray Serve, vLLM e Triton Inference Server sugli acceleratori Amazon EC2 G5 e Inferentia. Queste implementazioni ottimizzano le prestazioni e l’utilizzo della memoria per modelli su larga scala. JupyterHub consente lo sviluppo iterativo, Gradio fornisce semplici interfacce web e il driver CSI Mountpoint di S3 consente di montare bucket S3 come file system per accedere a file di modello di grandi dimensioni.

  • Inferenza in batch (offline): le organizzazioni elaborano set di dati di grandi dimensioni in modo efficiente tramite processi pianificati con AWS Batch o Volcano. Questi carichi di lavoro utilizzano spesso istanze EC2 Inf1 e Inf2 per chip AWS Inferentia, istanze Amazon EC2 G4dn per GPU NVIDIA T4 o istanze CPU c5 e c6i, massimizzando l’utilizzo delle risorse durante le ore non di punta per le attività di analisi. I driver AWS Neuron SDK e GPU NVIDIA ottimizzano le prestazioni, mentre MIG/TS consente la condivisione della GPU. Le soluzioni di archiviazione includono Amazon S3 e Amazon EFS e FSx per Lustre, con driver CSI per varie classi di archiviazione. La gestione dei modelli sfrutta strumenti come Kubeflow Pipelines, Argo Workflows e Ray Cluster, mentre il monitoraggio è gestito da Prometheus, Grafana e strumenti di monitoraggio dei modelli personalizzati.

Casi di studio

I clienti scelgono Amazon EKS per vari motivi, come l’ottimizzazione dell’utilizzo della GPU o l’esecuzione di carichi di lavoro di inferenza in tempo reale con latenza inferiore al secondo, come dimostrato nei seguenti casi di studio. Per un elenco di tutti i casi di studio relativi ad Amazon EKS, consulta AWS Customer Success Stories.

  • Unitary elabora 26 milioni di video al giorno utilizzando l’IA per la moderazione dei contenuti, richiedendo un’inferenza ad alto throughput e bassa latenza e ha ottenuto una riduzione dell’80% dei tempi di avvio dei container, garantendo una risposta rapida agli eventi di scalabilità in base alle fluttuazioni del traffico.

  • Miro, la piattaforma di collaborazione visiva che supporta 70 milioni di utenti in tutto il mondo, ha registrato una riduzione dell’80% dei costi di elaborazione rispetto ai precedenti cluster Kubernetes autogestiti.

  • Synthesia, che offre ai clienti la creazione di video con IA generativa come servizio per consentire ai clienti di creare video realistici a partire da prompt di testo, ha ottenuto un miglioramento di 30 volte nel throughput per l’addestramento dei modelli ML.

  • Harri, che fornisce tecnologia HR per il settore alberghiero, ha raggiunto una riduzione orizzontale più rapida del 90% in risposta ai picchi di domanda e ha ridotto i costi di elaborazione del 30% eseguendo la migrazione ai processori AWS Graviton.

  • Ada Support, una società di automazione del servizio clienti basata sull’IA, ha ottenuto una riduzione del 15% dei costi di elaborazione insieme a un aumento del 30% dell’efficienza nell’elaborazione.

  • Snorkel AI, che consente alle aziende di creare e adattare modelli di base e modelli linguistici di grandi dimensioni, ha ottenuto risparmi sui costi di oltre il 40% implementando meccanismi di scalabilità intelligenti per le risorse GPU.

Inizia a usare il machine learning su EKS

Per iniziare a pianificare e utilizzare le piattaforme e i carichi di lavoro di machine learning su EKS nel cloud AWS, vai alla sezione Risorse per iniziare a utilizzare IA/ML su Amazon EKS.