Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Modello 1: pipeline di inferenza ML senza server
In molti ambienti aziendali, i team devono inserire l'intelligenza artificiale nei flussi di lavoro operativi, ad esempio per classificare il feedback degli utenti, rilevare anomalie nella telemetria in entrata o valutare i rischi in tempo reale. Queste funzionalità basate sull'apprendimento automatico (ML) sono spesso integrate in applicazioni rivolte ai clienti, app mobili o sistemi di automazione interni.
Tuttavia, i carichi di lavoro di inferenza ML tradizionali richiedono in genere quanto segue:
-
Elaborazione preconfigurata come istanze e contenitori Amazon Elastic Compute Cloud (Amazon EC2)
-
Politiche di scalabilità manuale
-
Infrastruttura persistente anche quando è inattiva
-
Pipeline di implementazione e monitoraggio complesse
Questi requisiti comportano quanto segue:
-
Risorse sottoutilizzate per l'inferenza sporadica
-
Complessità operativa per il controllo delle versioni, il failover e l'auto-scaling dei modelli
-
Aumento dei costi, in particolare per carichi di lavoro a bassa frequenza o con interruzioni
Inoltre, i team di progettazione spesso non dispongono delle competenze specializzate in infrastruttura ML necessarie per mantenere questa complessità e l'adozione dell'IA si blocca nella fase di prototipo.
Il modello di inferenza ML senza server: leggero, basato sugli eventi e scalabile
Il modello di pipeline di inferenza ML senza server utilizza una soluzione completamente gestita e basata sugli eventi per eliminare il carico dell'infrastruttura. Servizi AWS Questo approccio consente flussi di lavoro di inferenza che si attivano ed eseguono solo quando necessario e si adattano automaticamente alla domanda.
Questo modello è ideale per eseguire le seguenti attività:
-
Esegui modelli di machine learning leggeri addestrati in Amazon SageMaker o localmente.
-
Esegui la classificazione, il punteggio o la trasformazione quasi in tempo reale.
-
Incorpora la logica ML nei microservizi o nelle pipeline di APIs inserimento dei dati.
L'architettura di riferimento implementa ogni livello come segue:
-
Event trigger: utilizza Amazon API Gateway per le richieste degli utenti, Amazon EventBridge for business events e Amazon S3 per i caricamenti di dati.
-
Livello di elaborazione: implementato AWS Lambdaper normalizzare l'input, convalidare lo schema e arricchire i metadati.
-
Livello di inferenza: implementa un endpoint di inferenza SageMaker senza server per eseguire la classificazione, la regressione o il punteggio.
-
Postelaborazione: utilizza Lambda per formattare la risposta, archiviare i log ed emettere nuovi eventi.
-
Output: implementa API Gateway per restituire risultati agli utenti o pubblica eventi EventBridge per l'elaborazione a valle.
Nota
L'intera pipeline può essere implementata come infrastruttura come codice (IaC) utilizzando AWS Cloud Development Kit (AWS CDK) or AWS Serverless Application Model (AWS SAM), versioned e observable.
Caso d'uso: classificazione dei sentimenti per il feedback dei clienti
Un'azienda di e-commerce globale desidera classificare il feedback dei clienti lasciato sulle recensioni dei prodotti o sui ticket di assistenza per identificare tempestivamente i detrattori e dare priorità al follow-up. Il sistema di classificazione deve soddisfare i seguenti requisiti:
-
Il traffico è molto variabile, con picchi durante i periodi delle campagne.
-
L'inferenza deve avvenire in tempo reale per l'integrazione con il sistema di triage del supporto.
-
Il modello è leggero (latenza di inferenza di 100 ms) e addestrato. SageMaker
In questo caso d'uso, la soluzione serverless inference pipeline prevede i seguenti passaggi:
-
Il feedback degli utenti viene inviato ad API Gateway che lo invia a EventBridge.
-
Lambda preelabora e formatta il payload di testo.
-
L'endpoint SageMaker Serverless Inference esegue un modello di classificazione dei sentimenti.
-
Lambda indirizza i risultati «negativi» alla coda di escalation del supporto.
-
I risultati vengono registrati in Amazon DynamoDB per l'analisi e la riqualificazione.
Valore aziendale della pipeline di inferenza ML senza server
La pipeline di inferenza ML serverless offre valore nelle seguenti aree:
-
Scalabilità: scalabilità automatica fino a migliaia di inferenze al minuto senza ottimizzazione manuale
-
Efficienza in termini di costi: paga solo per i tempi di esecuzione senza costi durante i periodi di inattività
-
Velocità degli sviluppatori: consente ai team di implementare flussi di lavoro di inferenza end-to-end AI senza gestire l'infrastruttura
-
Resilienza: fornisce nuovi tentativi, registrazione ed esecuzione stateless integrati per garantire la robustezza
-
Osservabilità: monitora l'utilizzo del modello, i volumi di input e output e la latenza utilizzando Amazon e CloudWatch AWS X-Ray
La pipeline di inferenza ML serverless è il punto di ingresso per molte organizzazioni che desiderano adottare l'IA in modo incrementale e pragmatico. È il modello ideale per raggiungere i seguenti obiettivi:
-
AI in tempo reale e a bassa latenza
-
Implementazione conveniente dei modelli ML tradizionali
-
Perfetta integrazione con i moderni sistemi serverless e basati sugli eventi
Eliminando l'infrastruttura, i team possono concentrarsi sulla logica di business, sull'accuratezza del modello e sulla fornitura di valore reale, senza sacrificare il controllo operativo o la scalabilità.