

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Modello 1: pipeline di inferenza ML senza server
<a name="pattern-serverless-ml-inference"></a>

In molti ambienti aziendali, i team devono inserire l'intelligenza artificiale nei flussi di lavoro operativi, ad esempio per classificare il feedback degli utenti, rilevare anomalie nella telemetria in entrata o valutare i rischi in tempo reale. Queste funzionalità basate sull'apprendimento automatico (ML) sono spesso integrate in applicazioni rivolte ai clienti, app mobili o sistemi di automazione interni.

Tuttavia, i carichi di lavoro di inferenza ML tradizionali richiedono in genere quanto segue:
+ Elaborazione preconfigurata come istanze e contenitori Amazon Elastic Compute Cloud (Amazon EC2)
+ Politiche di scalabilità manuale
+ Infrastruttura persistente anche quando è inattiva
+ Pipeline di implementazione e monitoraggio complesse

Questi requisiti comportano quanto segue:
+ Risorse sottoutilizzate per l'inferenza sporadica
+ Complessità operativa per il controllo delle versioni, il failover e l'auto-scaling dei modelli
+ Aumento dei costi, in particolare per carichi di lavoro a bassa frequenza o con interruzioni

Inoltre, i team di progettazione spesso non dispongono delle competenze specializzate in infrastruttura ML necessarie per mantenere questa complessità e l'adozione dell'IA si blocca nella fase di prototipo.

## Il modello di inferenza ML senza server: leggero, basato sugli eventi e scalabile
<a name="section-pattern-ml-inference"></a>

Il modello di pipeline di inferenza ML senza server utilizza una soluzione completamente gestita e basata sugli eventi per eliminare il carico dell'infrastruttura. Servizi AWS Questo approccio consente flussi di lavoro di inferenza che si attivano ed eseguono solo quando necessario e si adattano automaticamente alla domanda.

Questo modello è ideale per eseguire le seguenti attività:
+ Esegui modelli di machine learning leggeri addestrati in Amazon SageMaker o localmente.
+ Esegui la classificazione, il punteggio o la trasformazione quasi in tempo reale.
+ Incorpora la logica ML nei microservizi o nelle pipeline di APIs inserimento dei dati.

L'architettura di riferimento implementa ogni livello come segue:
+ **Event trigger**: utilizza [Amazon API Gateway](https://docs.aws.amazon.com/apigateway/latest/developerguide/welcome.html) per le richieste degli utenti, [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) for business events e [Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html) per i caricamenti di dati.
+ **Livello di elaborazione**: implementato [AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/welcome.html)per normalizzare l'input, convalidare lo schema e arricchire i metadati.
+ **Livello di inferenza**: implementa un endpoint di inferenza [SageMaker senza server per eseguire la classificazione, la regressione](https://docs.aws.amazon.com/sagemaker/latest/dg/serverless-endpoints.html) o il punteggio.
+ **Postelaborazione**: utilizza Lambda per formattare la risposta, archiviare i log ed emettere nuovi eventi.
+ **Output**: implementa API Gateway per restituire risultati agli utenti o pubblica eventi EventBridge per l'elaborazione a valle.

**Nota**  
L'intera pipeline può essere implementata come infrastruttura come codice (IaC) utilizzando AWS Cloud Development Kit (AWS CDK) or AWS Serverless Application Model (AWS SAM), versioned e observable.

## Caso d'uso: classificazione dei sentimenti per il feedback dei clienti
<a name="section-use-case-sentiment-analysis"></a>

Un'azienda di e-commerce globale desidera classificare il feedback dei clienti lasciato sulle recensioni dei prodotti o sui ticket di assistenza per identificare tempestivamente i detrattori e dare priorità al follow-up. Il sistema di classificazione deve soddisfare i seguenti requisiti:
+ Il traffico è molto variabile, con picchi durante i periodi delle campagne.
+ L'inferenza deve avvenire in tempo reale per l'integrazione con il sistema di triage del supporto.
+ Il modello è leggero (latenza di inferenza di 100 ms) e addestrato. SageMaker

In questo caso d'uso, la soluzione serverless inference pipeline prevede i seguenti passaggi:

1. Il feedback degli utenti viene inviato ad API Gateway che lo invia a EventBridge.

1. Lambda preelabora e formatta il payload di testo.

1. L'endpoint SageMaker Serverless Inference esegue un modello di classificazione dei sentimenti.

1. Lambda indirizza i risultati «negativi» alla coda di escalation del supporto.

1. I risultati vengono registrati in Amazon DynamoDB per l'analisi e la riqualificazione.

## Valore aziendale della pipeline di inferenza ML senza server
<a name="section-ml-inference-business-value"></a>

La pipeline di inferenza ML serverless offre valore nelle seguenti aree:
+ **Scalabilità**: scalabilità automatica fino a migliaia di inferenze al minuto senza ottimizzazione manuale
+ **Efficienza in termini di costi**: paga solo per i tempi di esecuzione senza costi durante i periodi di inattività
+ **Velocità degli sviluppatori**: consente ai team di implementare flussi di lavoro di inferenza end-to-end AI senza gestire l'infrastruttura
+ **Resilienza**: fornisce nuovi tentativi, registrazione ed esecuzione stateless integrati per garantire la robustezza
+ **Osservabilità**: monitora l'utilizzo del modello, i volumi di input e output e la latenza utilizzando Amazon e CloudWatch AWS X-Ray

La pipeline di inferenza ML serverless è il punto di ingresso per molte organizzazioni che desiderano adottare l'IA in modo incrementale e pragmatico. È il modello ideale per raggiungere i seguenti obiettivi:
+ AI in tempo reale e a bassa latenza
+ Implementazione conveniente dei modelli ML tradizionali
+ Perfetta integrazione con i moderni sistemi serverless e basati sugli eventi

Eliminando l'infrastruttura, i team possono concentrarsi sulla logica di business, sull'accuratezza del modello e sulla fornitura di valore reale, senza sacrificare il controllo operativo o la scalabilità.