

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Ottimizzazione dei costi
<a name="cost-optimization"></a>

Con la scalabilità dei carichi di lavoro serverless e AI, la visibilità e il controllo dei costi diventano fondamentali per le operazioni sostenibili. A differenza dell'elaborazione tradizionale, in cui i costi sono prevedibili per istanza/ora, i servizi di intelligenza artificiale generativa e senza server introducono nuove dimensioni di costo:
+ Costi di inferenza in base all'utilizzo dei token (ad esempio, Amazon Bedrock)
+ Fatturazione per chiamata (ad esempio e) AWS Lambda AWS Step Functions
+ Trigger basati sul volume degli eventi (ad esempio, Amazon e Amazon EventBridge S3)
+ Knowledge base, tool call e dinamiche di espansione Retrieval Augmented Generation (RAG)

Senza una pianificazione e un monitoraggio accurati, le organizzazioni rischiano picchi di fatturazione imprevisti, soprattutto con modelli linguistici di grandi dimensioni () o cicli di eventi illimitati. LLMs

## Perché l'ottimizzazione dei costi è fondamentale nell'IA serverless
<a name="section-cost-importance"></a>

I seguenti fattori contribuiscono ai costi dei sistemi di intelligenza artificiale serverless:
+ **Selezione delle dimensioni LLM**: i modelli di livello superiore (ad esempio [Amazon Nova](https://docs.aws.amazon.com/nova/latest/userguide/what-is-nova.html) Premier) sono significativamente più costosi per token.
+ **Lunghezza e dettaglio rapidi: input e output** più lunghi aumentano i costi di Amazon Bedrock in modo lineare.
+ Espansione **delle chiamate agli strumenti**: gli agenti che utilizzano troppi strumenti ridondanti possono accumulare costi Lambda e per il trasferimento dei dati.
+ **Granularità del flusso di lavoro di Step Functions**: i flussi di lavoro eccessivamente frammentati aumentano le transizioni di stato e la durata dell'esecuzione.
+ **Spostamento dei dati: il** traffico eccessivo tra le regioni, l'indicizzazione RAG non necessaria o il recupero ripetuto della knowledge base possono diventare costosi.

## Strategie di ottimizzazione dei costi
<a name="section-cost-strategies"></a>

Prendi in considerazione l'implementazione delle seguenti strategie per ottimizzare i costi nei tuoi carichi di lavoro di intelligenza artificiale senza server:
+ **Utilizza la selezione di modelli a più livelli**: modelli come Amazon Nova, Amazon Titan e Anthropic Claude offrono diversi modelli di prezzo con compromessi in termini di costi, velocità e precisione. Per implementare questa strategia, invia i prompt a bassa complessità ad Amazon Nova Micro ed esegui l'escalation solo quando la fiducia è scarsa.
+ **Taglia le istruzioni e gli output**: il numero di token è il principale fattore di costo in Amazon Bedrock. Per implementare questa strategia, impone la dimensione massima dei prompt, usa frasi concise ed evita completamenti prolissi.
+ **Controlla l'ambito di recupero dei RAG: documenti illimitati in una knowledge base possono creare un contesto generalizzato**. Per implementare questa strategia, utilizzate i filtri per i metadati e la classifica Top K. Inoltre, inserisci solo i contenuti pertinenti nel prompt LLM.
+ **Eventi batch per l'inferenza**: le chiamate di inferenza individuali sono più costose dell'elaborazione in batch. Per implementare questa strategia, raggruppa gli input (ad esempio, l'analisi e il riepilogo del sentiment) ed esegui una singola inferenza per batch.
+ **Usa Step Functions per l'aggregazione, non per la microgestione**: l'uso eccessivo delle transizioni di stato atomiche porta a lunghe durate. Per implementare questa strategia, raggruppa la logica correlata in unità Lambda ed evita schemi di esplosione di stato.
+ **Gestione asincrona della risposta**: non bloccate il calcolo attendendo modelli lenti. Per implementare questa strategia, usala [EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html)con [Amazon Simple Queue Service](https://docs.aws.amazon.com/AWSSimpleQueueService/latest/SQSDeveloperGuide/welcome.html) (Amazon SQS) e Lambda per modelli di risposta ritardata (ad esempio, riepilogo asincrono).
+ **Usa i tag di allocazione dei costi di Amazon Bedrock**: i tag consentono la visibilità in base all'applicazione e al team. Per implementare questa strategia, applica tag standardizzati alle chiamate Amazon Bedrock (ad esempio `Project=MarketingAI` e`Team=GenOps`).
+ **Ottimizza la logica dei tentativi e della fiducia**: nuovi tentativi o catene di fallback non necessari aumentano i costi. Per implementare questa strategia, utilizzate soglie di confidenza strutturate e uscite anticipate per limitare i nuovi tentativi.
+ **Utilizza la memorizzazione nella cache per le chiamate agli strumenti: molte chiamate** agli strumenti degli agenti ripetono il recupero dei dati. Per implementare questa strategia, archivia i risultati recenti degli strumenti in [Amazon DynamoDB](https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/Introduction.html) con time to live (TTL) e riutilizzali se invariati.
+ **Sfrutta la concorrenza riservata o la concorrenza provvisoria (se necessario): in** casi con volumi elevati, questa strategia riduce l'incertezza dell'avvio a freddo e dei costi. Implementa questa strategia abilitandola solo per funzioni con traffico prevedibile e lunghi tempi di riscaldamento.

## Esempio: assistente AI generativo attento ai costi
<a name="section-cost-example-assistant"></a>

Un assistente di supporto viene creato utilizzando [Amazon Bedrock Agents](https://docs.aws.amazon.com/bedrock/latest/userguide/agents-how.html). Utilizza inoltre strumenti basati su Lambda integrati per l'accesso ai dati in tempo reale (ad esempio, gli ordini degli utenti e le politiche di restituzione). Infine, utilizza una knowledge base che contiene documenti di prodotto e file PDF di policy. FAQs

La funzione dell'assistente è la seguente:

1. Riceve richieste in linguaggio naturale tramite chat (frontend) tramite [Amazon API Gateway](https://docs.aws.amazon.com/apigateway/latest/developerguide/welcome.html).

1. Per domande semplici come la ricerca delle politiche, esegue le seguenti operazioni:
   + Richiama un LLM leggero (Amazon Nova Lite) per formulare una risposta.
   + Trae il contesto di base dalla knowledge base di Amazon Bedrock.

1. Per interrogazioni più complesse come la risoluzione in più passaggi, esegue le seguenti operazioni:
   + Attiva un agente Amazon Bedrock con orchestrazione orientata agli obiettivi.
   + Utilizza strumenti Lambda come `getOrderStats(userId)``initiateReturn(orderId)`, e. `lookupDeliveryOptions(zipCode)`

1. La risposta viene post-elaborata per eseguire le seguenti operazioni:
   + Rimuove l'output estraneo.
   + Convalida la messaggistica allineata alle politiche.
   + Registra i dati di interazione.

Le seguenti strategie di ottimizzazione dei costi si applicano a questo esempio di assistente AI:
+ Il **routing su più livelli riduce i costi gestendo richieste più piccole con un modello** più piccolo. Questo approccio utilizza Amazon Nova Lite per le richieste in stile FAQ e Claude 3 Sonnet solo per il 10% dei casi che richiedono ragionamenti o chiamate a più strumenti.
+ Il **taglio rapido e il controllo dei modelli garantiscono un utilizzo coerente e prevedibile in termini** di costi. I prompt hanno un limite di token e sono creati a partire da modelli strutturati (ad esempio, massimo 400 token con contesto).
+ L'ambito **RAG contestuale evita di inserire documenti in eccesso in un prompt LLM.** La knowledge base limita il recupero alle categorie di prodotti o ai domini politici pertinenti utilizzando il filtraggio dei metadati.
+ La **memorizzazione nella cache dei risultati delle chiamate agli strumenti** evita invocazioni Lambda duplicate quando gli utenti riformulano la frase. I risultati `lookupReturnWindow` vengono memorizzati nella cache di DynamoDB con un TTL di 10 minuti. `getOrderStatus`
+ Il **modello di escalation basato sulla fiducia bilancia** la qualità dell'esperienza con il controllo dei costi LLM. Se la fiducia nella risposta di Amazon Nova Lite (misurata in base all'euristica della struttura e delle espressioni regolari) è bassa, affidati a Anthropic Claude o a una coda di escalation umana.
+ **Response validator Lambda** riduce i token di output non necessari di circa il 25 percento. Questo approccio elimina i completamenti dettagliati del modello, formatta le risposte in output concisi e registra le dimensioni dei token.
+ L'**etichettatura dei costi** consente FinOps di generare report per funzione e per ambiente. Tutte le chiamate Amazon Bedrock sono contrassegnate con `Application=SupportAssistant``Environment=Production`, e`Team=CustomerSuccess`.

Questo esempio mostra come scelte architettoniche intelligenti, come il routing dei modelli su più livelli, la memorizzazione nella cache, il recupero con ambito e il controllo delle inferenze, possano ridurre i costi operativi garantendo al contempo un'automazione del supporto scalabile e di alta qualità. L'esempio dell'assistente generativo basato sull'intelligenza artificiale fornisce un modello riutilizzabile che si applica a tutti i domini, come gli assistenti delle risorse umane, gli helpdesk IT, i bot di onboarding dei partner o gli assistenti alla formazione dei clienti. In ogni caso, il modello può aiutare a raggiungere un equilibrio tra efficienza dei costi, fiducia e scalabilità.

## Monitoraggio e invio di avvisi per l'ottimizzazione dei costi
<a name="section-cost-monitoring"></a>

Quanto segue Servizi AWS aiuta a monitorare e ottimizzare i costi nei carichi di lavoro di intelligenza artificiale senza server:
+ CloudWatchle [metriche](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html) tengono traccia dell'utilizzo del token Amazon Bedrock, della durata dei passaggi di Step Functions e del costo di chiamata Lambda.
+ [Budget AWS](https://docs.aws.amazon.com/cost-management/latest/userguide/budgets-managing-costs.html)avvisa i team quando vengono superate le soglie di costo (ad esempio, il costo giornaliero dei token).
+ [AWS Cost Explorer](https://docs.aws.amazon.com/cost-management/latest/userguide/ce-what-is.html)e [Cost Categories](https://docs.aws.amazon.com/awsaccountbilling/latest/aboutv2/manage-cost-categories.html) forniscono visualizzazioni della spesa per app, team o modello.
+ I log delle [API di Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/userguide/monitoring.html#br-cloudwatch-metrics) (completi CloudWatch) consentono l'analisi della struttura dei prompt e delle dimensioni della risposta.
+ I log di [Amazon Athena](https://docs.aws.amazon.com/athena/latest/ug/what-is.html) e [Amazon](https://docs.aws.amazon.com/AmazonS3/latest/userguide/monitoring-overview.html) S3 supportano query una tantum o ad hoc sui dati di utilizzo esportati da o log personalizzati. AWS CloudTrail 

## Segnali di avvertimento per l'ottimizzazione
<a name="section-cost-warning-signals"></a>

Monitora i seguenti segnali per identificare potenziali problemi di ottimizzazione dei costi:
+ **Picco nell'utilizzo dei token**: può indicare una modifica immediata, una nuova versione del modello o un eccessivo recupero di RAG.
+ **Aumento della latenza di Amazon Bedrock**: può portare a durate Lambda più lunghe e a un aumento del costo per inferenza.
+ **Aumento del numero di chiamate agli strumenti per sessione di operatore**: suggerisce un uso improprio dello strumento o una logica di richiesta inefficiente.
+ **Passaggi Step Functions di lunga durata**: potrebbero derivare da stati eccessivamente decomposti o da eventi asincroni bloccati.
+ Livello di **modello sottoutilizzato: indica il pagamento per una precisione di livello superiore** su richieste a basso rischio.

## Riepilogo dell'ottimizzazione dei costi
<a name="section-cost-summary"></a>

L'ottimizzazione dei costi nei sistemi serverless basati sull'intelligenza artificiale non significa solo ridurre al minimo la spesa. Si tratta di allineare l'utilizzo dell'elaborazione e dei modelli al valore aziendale di ogni decisione. Con le giuste strategie, le organizzazioni possono scalare in modo responsabile e sicuro, bilanciando innovazione e controllo dei costi.

Combinando strategie di modello a più livelli, disciplina tempestiva e basata su token, ottimizzazione del flusso di lavoro, osservabilità e etichettatura, le aziende possono sfruttare al massimo gli investimenti in intelligenza artificiale senza sforare il budget.