Modello 1: pipeline di inferenza ML senza server - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Modello 1: pipeline di inferenza ML senza server

In molti ambienti aziendali, i team devono inserire l'intelligenza artificiale nei flussi di lavoro operativi, ad esempio per classificare il feedback degli utenti, rilevare anomalie nella telemetria in entrata o valutare i rischi in tempo reale. Queste funzionalità basate sull'apprendimento automatico (ML) sono spesso integrate in applicazioni rivolte ai clienti, app mobili o sistemi di automazione interni.

Tuttavia, i carichi di lavoro di inferenza ML tradizionali richiedono in genere quanto segue:

  • Elaborazione preconfigurata come istanze e contenitori Amazon Elastic Compute Cloud (Amazon EC2)

  • Politiche di scalabilità manuale

  • Infrastruttura persistente anche quando è inattiva

  • Pipeline di implementazione e monitoraggio complesse

Questi requisiti comportano quanto segue:

  • Risorse sottoutilizzate per l'inferenza sporadica

  • Complessità operativa per il controllo delle versioni, il failover e l'auto-scaling dei modelli

  • Aumento dei costi, in particolare per carichi di lavoro a bassa frequenza o con interruzioni

Inoltre, i team di progettazione spesso non dispongono delle competenze specializzate in infrastruttura ML necessarie per mantenere questa complessità e l'adozione dell'IA si blocca nella fase di prototipo.

Il modello di inferenza ML senza server: leggero, basato sugli eventi e scalabile

Il modello di pipeline di inferenza ML senza server utilizza una soluzione completamente gestita e basata sugli eventi per eliminare il carico dell'infrastruttura. Servizi AWS Questo approccio consente flussi di lavoro di inferenza che si attivano ed eseguono solo quando necessario e si adattano automaticamente alla domanda.

Questo modello è ideale per eseguire le seguenti attività:

  • Esegui modelli di machine learning leggeri addestrati in Amazon SageMaker o localmente.

  • Esegui la classificazione, il punteggio o la trasformazione quasi in tempo reale.

  • Incorpora la logica ML nei microservizi o nelle pipeline di APIs inserimento dei dati.

L'architettura di riferimento implementa ogni livello come segue:

  • Event trigger: utilizza Amazon API Gateway per le richieste degli utenti, Amazon EventBridge for business events e Amazon S3 per i caricamenti di dati.

  • Livello di elaborazione: implementato AWS Lambdaper normalizzare l'input, convalidare lo schema e arricchire i metadati.

  • Livello di inferenza: implementa un endpoint di inferenza SageMaker senza server per eseguire la classificazione, la regressione o il punteggio.

  • Postelaborazione: utilizza Lambda per formattare la risposta, archiviare i log ed emettere nuovi eventi.

  • Output: implementa API Gateway per restituire risultati agli utenti o pubblica eventi EventBridge per l'elaborazione a valle.

Nota

L'intera pipeline può essere implementata come infrastruttura come codice (IaC) utilizzando AWS Cloud Development Kit (AWS CDK) or AWS Serverless Application Model (AWS SAM), versioned e observable.

Caso d'uso: classificazione dei sentimenti per il feedback dei clienti

Un'azienda di e-commerce globale desidera classificare il feedback dei clienti lasciato sulle recensioni dei prodotti o sui ticket di assistenza per identificare tempestivamente i detrattori e dare priorità al follow-up. Il sistema di classificazione deve soddisfare i seguenti requisiti:

  • Il traffico è molto variabile, con picchi durante i periodi delle campagne.

  • L'inferenza deve avvenire in tempo reale per l'integrazione con il sistema di triage del supporto.

  • Il modello è leggero (latenza di inferenza di 100 ms) e addestrato. SageMaker

In questo caso d'uso, la soluzione serverless inference pipeline prevede i seguenti passaggi:

  1. Il feedback degli utenti viene inviato ad API Gateway che lo invia a EventBridge.

  2. Lambda preelabora e formatta il payload di testo.

  3. L'endpoint SageMaker Serverless Inference esegue un modello di classificazione dei sentimenti.

  4. Lambda indirizza i risultati «negativi» alla coda di escalation del supporto.

  5. I risultati vengono registrati in Amazon DynamoDB per l'analisi e la riqualificazione.

Valore aziendale della pipeline di inferenza ML senza server

La pipeline di inferenza ML serverless offre valore nelle seguenti aree:

  • Scalabilità: scalabilità automatica fino a migliaia di inferenze al minuto senza ottimizzazione manuale

  • Efficienza in termini di costi: paga solo per i tempi di esecuzione senza costi durante i periodi di inattività

  • Velocità degli sviluppatori: consente ai team di implementare flussi di lavoro di inferenza end-to-end AI senza gestire l'infrastruttura

  • Resilienza: fornisce nuovi tentativi, registrazione ed esecuzione stateless integrati per garantire la robustezza

  • Osservabilità: monitora l'utilizzo del modello, i volumi di input e output e la latenza utilizzando Amazon e CloudWatch AWS X-Ray

La pipeline di inferenza ML serverless è il punto di ingresso per molte organizzazioni che desiderano adottare l'IA in modo incrementale e pragmatico. È il modello ideale per raggiungere i seguenti obiettivi:

  • AI in tempo reale e a bassa latenza

  • Implementazione conveniente dei modelli ML tradizionali

  • Perfetta integrazione con i moderni sistemi serverless e basati sugli eventi

Eliminando l'infrastruttura, i team possono concentrarsi sulla logica di business, sull'accuratezza del modello e sulla fornitura di valore reale, senza sacrificare il controllo operativo o la scalabilità.