Perché scegliere EKS per IA/ML?Casi d’uso principali Casi di studio Inizia a usare il machine learning su EKS

Contribuisci a migliorare questa pagina

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Per contribuire a questa guida per l'utente, scegli il GitHub link Modifica questa pagina nel riquadro destro di ogni pagina.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Panoramica dell’intelligenza artificiale (IA) e del machine learning (ML) su Amazon EKS

Amazon Elastic Kubernetes Service (EKS) è una piattaforma Kubernetes gestita che consente alle organizzazioni di implementare, gestire e scalare carichi di lavoro di IA e machine learning (ML) con flessibilità e controllo senza precedenti. Basato sull'ecosistema open source Kubernetes, EKS ti consente di sfruttare le tue competenze Kubernetes esistenti, integrandosi perfettamente con strumenti e servizi open source. AWS

Che tu stia addestrando modelli su larga scala, eseguendo inferenze online in tempo reale o implementando applicazioni di intelligenza artificiale generativa, EKS offre le prestazioni, la scalabilità e l'efficienza dei costi richieste dai tuoi progetti. AI/ML

Perché scegliere EKS per IA/ML?

EKS è una piattaforma Kubernetes gestita che ti aiuta a implementare e gestire carichi di lavoro complessi. AI/ML Basata sull'ecosistema open source Kubernetes, si integra con i AWS servizi, fornendo il controllo e la scalabilità necessari per progetti avanzati. Per i team alle prime armi con le AI/ML implementazioni, le competenze Kubernetes esistenti vengono trasferite direttamente, consentendo un'orchestrazione efficiente di più carichi di lavoro.

EKS supporta tutto, dalla personalizzazione del sistema operativo alla scalabilità del calcolo, e la sua base open source promuove la flessibilità tecnologica, preservando la scelta per le future decisioni sull’infrastruttura. La piattaforma offre le prestazioni e le opzioni di ottimizzazione richieste dai carichi di lavoro, supportando funzionalità come: AI/ML

Controllo completo del cluster per ottimizzare costi e configurazioni senza astrazioni nascoste
Latenza inferiore al secondo per carichi di lavoro di inferenza in tempo reale in produzione
Personalizzazioni avanzate come strategie multiistanza e multi-cloud e GPUs ottimizzazione a livello di sistema operativo
Capacità di centralizzare i carichi di lavoro utilizzando EKS come orchestratore unificato tra le pipeline AI/ML

Casi d’uso principali

Amazon EKS offre una piattaforma robusta per un'ampia gamma di AI/ML carichi di lavoro, supportando varie tecnologie e modelli di implementazione:

Inferenza in tempo reale (online): EKS consente previsioni immediate sui dati in entrata, come il rilevamento delle frodi, con una latenza inferiore al secondo utilizzando strumenti come TorchServe Triton Inference Server e istanze Amazon Inf1 e KServeInf2. EC2 Questi carichi di lavoro traggono vantaggio dal dimensionamento dinamico con Karpenter e KEDA, sfruttando al contempo Amazon EFS per lo sharding dei modelli tra i pod. Amazon ECR Pull Through Cache (PTC) accelera gli aggiornamenti dei modelli, mentre i volumi di dati Bottlerocket con volumi ottimizzati per Amazon EBS garantiscono un accesso rapido ai dati.
Formazione generale sui modelli: le organizzazioni sfruttano EKS per addestrare modelli complessi su set di dati di grandi dimensioni per periodi prolungati utilizzando Kubeflow Training Operator, Ray Serve e Torch Distributed Elastic su istanze Amazon EC2 P4d e Amazon Trn1. EC2 Questi carichi di lavoro sono supportati dalla pianificazione in batch con strumenti come Volcano, Yunikorn e Kueue. Amazon EFS consente la condivisione dei checkpoint del modello e Amazon S3 gestisce il import/export modello con politiche del ciclo di vita per la gestione delle versioni.
Pipeline di generazione potenziata da recupero dati (RAG): EKS gestisce chatbot di assistenza clienti e applicazioni simili integrando processi di recupero e generazione. Questi carichi di lavoro utilizzano spesso strumenti come Argo Workflows e Kubeflow per l'orchestrazione, database vettoriali come Pinecone, Weaviate o Amazon ed espongono le OpenSearch applicazioni agli utenti tramite l'Application Load Balancer Controller (LBC). NVIDIA NIM ottimizza l’utilizzo della GPU, mentre Prometheus e Grafana monitorano l’utilizzo delle risorse.
Implementazione di modelli di intelligenza artificiale generativa: le aziende implementano servizi di creazione di contenuti in tempo reale su EKS, come la generazione di testo o immagini, utilizzando Ray Serve, vLLM e Triton Inference Server su Amazon G5 e acceleratori Inferentia. EC2 Queste implementazioni ottimizzano le prestazioni e l'utilizzo della memoria per modelli su larga scala. JupyterHubconsente lo sviluppo iterativo, Gradio fornisce semplici interfacce web e il driver S3 Mountpoint CSI consente di montare bucket S3 come file system per accedere a file di modello di grandi dimensioni.
Inferenza in batch (offline): le organizzazioni elaborano set di dati di grandi dimensioni in modo efficiente tramite processi pianificati con AWS Batch o Volcano. Questi carichi di lavoro utilizzano spesso istanze Inf1 e Inf2 per chip AWS Inferentia, EC2 istanze EC2 Amazon G4dn per NVIDIA GPUs T4 o istanze CPU c5 e c6i, massimizzando l'utilizzo delle risorse durante le ore non di punta per le attività di analisi. AWS I driver Neuron SDK e NVIDIA GPU ottimizzano le prestazioni, abilitando al contempo la condivisione della GPU. MIG/TS Le soluzioni di storage includono Amazon S3 e Amazon EFS e FSx for Lustre, con driver CSI per varie classi di storage. La gestione dei modelli sfrutta strumenti come Kubeflow Pipelines, Argo Workflows e Ray Cluster, mentre il monitoraggio è gestito da Prometheus, Grafana e strumenti di monitoraggio dei modelli personalizzati.

Casi di studio

I clienti scelgono Amazon EKS per vari motivi, come l’ottimizzazione dell’utilizzo della GPU o l’esecuzione di carichi di lavoro di inferenza in tempo reale con latenza inferiore al secondo, come dimostrato nei seguenti casi di studio. Per un elenco di tutti i casi di studio relativi ad Amazon EKS, consulta AWS Customer Success Stories.

Unitary elabora 26 milioni di video al giorno utilizzando l’IA per la moderazione dei contenuti, richiedendo un’inferenza ad alto throughput e bassa latenza e ha ottenuto una riduzione dell’80% dei tempi di avvio dei container, garantendo una risposta rapida agli eventi di scalabilità in base alle fluttuazioni del traffico.
Miro, la piattaforma di collaborazione visiva che supporta 70 milioni di utenti in tutto il mondo, ha registrato una riduzione dell’80% dei costi di elaborazione rispetto ai precedenti cluster Kubernetes autogestiti.
Synthesia, che offre ai clienti la creazione di video con IA generativa come servizio per consentire ai clienti di creare video realistici a partire da prompt di testo, ha ottenuto un miglioramento di 30 volte nel throughput per l’addestramento dei modelli ML.
Harri, che fornisce tecnologia HR per il settore alberghiero, ha raggiunto una riduzione orizzontale più rapida del 90% in risposta ai picchi di domanda e ha ridotto i costi di elaborazione del 30% eseguendo la migrazione ai processori AWS Graviton.
Ada Support, una società di automazione del servizio clienti basata sull’IA, ha ottenuto una riduzione del 15% dei costi di elaborazione insieme a un aumento del 30% dell’efficienza nell’elaborazione.
Snorkel AI, che consente alle aziende di creare e adattare modelli di base e modelli linguistici di grandi dimensioni, ha ottenuto risparmi sui costi di oltre il 40% implementando meccanismi di scalabilità intelligenti per le risorse GPU.

Inizia a usare il machine learning su EKS

Per iniziare a pianificare e utilizzare le piattaforme e i carichi di lavoro di Machine Learning su EKS sul AWS cloud, vai alla Risorse per iniziare a utilizzare IA/ML su Amazon EKS sezione.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Nodi

Inferenza in tempo reale