Il modello di inferenza ML senza server: leggero, basato sugli eventi e scalabile Caso d'uso: classificazione dei sentimenti per il feedback dei clienti Valore aziendale della pipeline di inferenza ML senza server

Modello 1: pipeline di inferenza ML senza server

In molti ambienti aziendali, i team devono inserire l'intelligenza artificiale nei flussi di lavoro operativi, ad esempio per classificare il feedback degli utenti, rilevare anomalie nella telemetria in entrata o valutare i rischi in tempo reale. Queste funzionalità basate sull'apprendimento automatico (ML) sono spesso integrate in applicazioni rivolte ai clienti, app mobili o sistemi di automazione interni.

Tuttavia, i carichi di lavoro di inferenza ML tradizionali richiedono in genere quanto segue:

Elaborazione preconfigurata come istanze e contenitori Amazon Elastic Compute Cloud (Amazon EC2)
Politiche di scalabilità manuale
Infrastruttura persistente anche quando è inattiva
Pipeline di implementazione e monitoraggio complesse

Questi requisiti comportano quanto segue:

Risorse sottoutilizzate per l'inferenza sporadica
Complessità operativa per il controllo delle versioni, il failover e l'auto-scaling dei modelli
Aumento dei costi, in particolare per carichi di lavoro a bassa frequenza o con interruzioni

Inoltre, i team di progettazione spesso non dispongono delle competenze specializzate in infrastruttura ML necessarie per mantenere questa complessità e l'adozione dell'IA si blocca nella fase di prototipo.

Il modello di inferenza ML senza server: leggero, basato sugli eventi e scalabile

Il modello di pipeline di inferenza ML senza server utilizza una soluzione completamente gestita e basata sugli eventi per eliminare il carico dell'infrastruttura. Servizi AWS Questo approccio consente flussi di lavoro di inferenza che si attivano ed eseguono solo quando necessario e si adattano automaticamente alla domanda.

Questo modello è ideale per eseguire le seguenti attività:

Esegui modelli di machine learning leggeri addestrati in Amazon SageMaker o localmente.
Esegui la classificazione, il punteggio o la trasformazione quasi in tempo reale.
Incorpora la logica ML nei microservizi o nelle pipeline di APIs inserimento dei dati.

L'architettura di riferimento implementa ogni livello come segue:

Event trigger: utilizza Amazon API Gateway per le richieste degli utenti, Amazon EventBridge for business events e Amazon S3 per i caricamenti di dati.
Livello di elaborazione: implementato AWS Lambdaper normalizzare l'input, convalidare lo schema e arricchire i metadati.
Livello di inferenza: implementa un endpoint di inferenza SageMaker senza server per eseguire la classificazione, la regressione o il punteggio.
Postelaborazione: utilizza Lambda per formattare la risposta, archiviare i log ed emettere nuovi eventi.
Output: implementa API Gateway per restituire risultati agli utenti o pubblica eventi EventBridge per l'elaborazione a valle.

Nota

L'intera pipeline può essere implementata come infrastruttura come codice (IaC) utilizzando AWS Cloud Development Kit (AWS CDK) or AWS Serverless Application Model (AWS SAM), versioned e observable.

Caso d'uso: classificazione dei sentimenti per il feedback dei clienti

Un'azienda di e-commerce globale desidera classificare il feedback dei clienti lasciato sulle recensioni dei prodotti o sui ticket di assistenza per identificare tempestivamente i detrattori e dare priorità al follow-up. Il sistema di classificazione deve soddisfare i seguenti requisiti:

Il traffico è molto variabile, con picchi durante i periodi delle campagne.
L'inferenza deve avvenire in tempo reale per l'integrazione con il sistema di triage del supporto.
Il modello è leggero (latenza di inferenza di 100 ms) e addestrato. SageMaker

In questo caso d'uso, la soluzione serverless inference pipeline prevede i seguenti passaggi:

Il feedback degli utenti viene inviato ad API Gateway che lo invia a EventBridge.
Lambda preelabora e formatta il payload di testo.
L'endpoint SageMaker Serverless Inference esegue un modello di classificazione dei sentimenti.
Lambda indirizza i risultati «negativi» alla coda di escalation del supporto.
I risultati vengono registrati in Amazon DynamoDB per l'analisi e la riqualificazione.

Valore aziendale della pipeline di inferenza ML senza server

La pipeline di inferenza ML serverless offre valore nelle seguenti aree:

Scalabilità: scalabilità automatica fino a migliaia di inferenze al minuto senza ottimizzazione manuale
Efficienza in termini di costi: paga solo per i tempi di esecuzione senza costi durante i periodi di inattività
Velocità degli sviluppatori: consente ai team di implementare flussi di lavoro di inferenza end-to-end AI senza gestire l'infrastruttura
Resilienza: fornisce nuovi tentativi, registrazione ed esecuzione stateless integrati per garantire la robustezza
Osservabilità: monitora l'utilizzo del modello, i volumi di input e output e la latenza utilizzando Amazon e CloudWatch AWS X-Ray

La pipeline di inferenza ML serverless è il punto di ingresso per molte organizzazioni che desiderano adottare l'IA in modo incrementale e pragmatico. È il modello ideale per raggiungere i seguenti obiettivi:

AI in tempo reale e a bassa latenza
Implementazione conveniente dei modelli ML tradizionali
Perfetta integrazione con i moderni sistemi serverless e basati sugli eventi

Eliminando l'infrastruttura, i team possono concentrarsi sulla logica di business, sull'accuratezza del modello e sulla fornitura di valore reale, senza sacrificare il controllo operativo o la scalabilità.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Progettazione di architetture AI serverless

Modello 2: orchestrazione dell'intelligenza artificiale agentica con Amazon Bedrock