Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Ottimizzazione dei costi
Con la scalabilità dei carichi di lavoro serverless e AI, la visibilità e il controllo dei costi diventano fondamentali per le operazioni sostenibili. A differenza dell'elaborazione tradizionale, in cui i costi sono prevedibili per istanza/ora, i servizi di intelligenza artificiale generativa e senza server introducono nuove dimensioni di costo:
-
Costi di inferenza in base all'utilizzo dei token (ad esempio, Amazon Bedrock)
-
Fatturazione per chiamata (ad esempio e) AWS Lambda AWS Step Functions
-
Trigger basati sul volume degli eventi (ad esempio, Amazon e Amazon EventBridge S3)
-
Knowledge base, tool call e dinamiche di espansione Retrieval Augmented Generation (RAG)
Senza una pianificazione e un monitoraggio accurati, le organizzazioni rischiano picchi di fatturazione imprevisti, soprattutto con modelli linguistici di grandi dimensioni () o cicli di eventi illimitati. LLMs
Perché l'ottimizzazione dei costi è fondamentale nell'IA serverless
I seguenti fattori contribuiscono ai costi dei sistemi di intelligenza artificiale serverless:
-
Selezione delle dimensioni LLM: i modelli di livello superiore (ad esempio Amazon Nova Premier) sono significativamente più costosi per token.
-
Lunghezza e dettaglio rapidi: input e output più lunghi aumentano i costi di Amazon Bedrock in modo lineare.
-
Espansione delle chiamate agli strumenti: gli agenti che utilizzano troppi strumenti ridondanti possono accumulare costi Lambda e per il trasferimento dei dati.
-
Granularità del flusso di lavoro di Step Functions: i flussi di lavoro eccessivamente frammentati aumentano le transizioni di stato e la durata dell'esecuzione.
-
Spostamento dei dati: il traffico eccessivo tra le regioni, l'indicizzazione RAG non necessaria o il recupero ripetuto della knowledge base possono diventare costosi.
Strategie di ottimizzazione dei costi
Prendi in considerazione l'implementazione delle seguenti strategie per ottimizzare i costi nei tuoi carichi di lavoro di intelligenza artificiale senza server:
-
Utilizza la selezione di modelli a più livelli: modelli come Amazon Nova, Amazon Titan e Anthropic Claude offrono diversi modelli di prezzo con compromessi in termini di costi, velocità e precisione. Per implementare questa strategia, invia i prompt a bassa complessità ad Amazon Nova Micro ed esegui l'escalation solo quando la fiducia è scarsa.
-
Taglia le istruzioni e gli output: il numero di token è il principale fattore di costo in Amazon Bedrock. Per implementare questa strategia, impone la dimensione massima dei prompt, usa frasi concise ed evita completamenti prolissi.
-
Controlla l'ambito di recupero dei RAG: documenti illimitati in una knowledge base possono creare un contesto generalizzato. Per implementare questa strategia, utilizzate i filtri per i metadati e la classifica Top K. Inoltre, inserisci solo i contenuti pertinenti nel prompt LLM.
-
Eventi batch per l'inferenza: le chiamate di inferenza individuali sono più costose dell'elaborazione in batch. Per implementare questa strategia, raggruppa gli input (ad esempio, l'analisi e il riepilogo del sentiment) ed esegui una singola inferenza per batch.
-
Usa Step Functions per l'aggregazione, non per la microgestione: l'uso eccessivo delle transizioni di stato atomiche porta a lunghe durate. Per implementare questa strategia, raggruppa la logica correlata in unità Lambda ed evita schemi di esplosione di stato.
-
Gestione asincrona della risposta: non bloccate il calcolo attendendo modelli lenti. Per implementare questa strategia, usala EventBridgecon Amazon Simple Queue Service (Amazon SQS) e Lambda per modelli di risposta ritardata (ad esempio, riepilogo asincrono).
-
Usa i tag di allocazione dei costi di Amazon Bedrock: i tag consentono la visibilità in base all'applicazione e al team. Per implementare questa strategia, applica tag standardizzati alle chiamate Amazon Bedrock (ad esempio
Project=MarketingAIeTeam=GenOps). -
Ottimizza la logica dei tentativi e della fiducia: nuovi tentativi o catene di fallback non necessari aumentano i costi. Per implementare questa strategia, utilizzate soglie di confidenza strutturate e uscite anticipate per limitare i nuovi tentativi.
-
Utilizza la memorizzazione nella cache per le chiamate agli strumenti: molte chiamate agli strumenti degli agenti ripetono il recupero dei dati. Per implementare questa strategia, archivia i risultati recenti degli strumenti in Amazon DynamoDB con time to live (TTL) e riutilizzali se invariati.
-
Sfrutta la concorrenza riservata o la concorrenza provvisoria (se necessario): in casi con volumi elevati, questa strategia riduce l'incertezza dell'avvio a freddo e dei costi. Implementa questa strategia abilitandola solo per funzioni con traffico prevedibile e lunghi tempi di riscaldamento.
Esempio: assistente AI generativo attento ai costi
Un assistente di supporto viene creato utilizzando Amazon Bedrock Agents. Utilizza inoltre strumenti basati su Lambda integrati per l'accesso ai dati in tempo reale (ad esempio, gli ordini degli utenti e le politiche di restituzione). Infine, utilizza una knowledge base che contiene documenti di prodotto e file PDF di policy. FAQs
La funzione dell'assistente è la seguente:
-
Riceve richieste in linguaggio naturale tramite chat (frontend) tramite Amazon API Gateway.
-
Per domande semplici come la ricerca delle politiche, esegue le seguenti operazioni:
-
Richiama un LLM leggero (Amazon Nova Lite) per formulare una risposta.
-
Trae il contesto di base dalla knowledge base di Amazon Bedrock.
-
-
Per interrogazioni più complesse come la risoluzione in più passaggi, esegue le seguenti operazioni:
-
Attiva un agente Amazon Bedrock con orchestrazione orientata agli obiettivi.
-
Utilizza strumenti Lambda come
getOrderStats(userId)initiateReturn(orderId), e.lookupDeliveryOptions(zipCode)
-
-
La risposta viene post-elaborata per eseguire le seguenti operazioni:
-
Rimuove l'output estraneo.
-
Convalida la messaggistica allineata alle politiche.
-
Registra i dati di interazione.
-
Le seguenti strategie di ottimizzazione dei costi si applicano a questo esempio di assistente AI:
-
Il routing su più livelli riduce i costi gestendo richieste più piccole con un modello più piccolo. Questo approccio utilizza Amazon Nova Lite per le richieste in stile FAQ e Claude 3 Sonnet solo per il 10% dei casi che richiedono ragionamenti o chiamate a più strumenti.
-
Il taglio rapido e il controllo dei modelli garantiscono un utilizzo coerente e prevedibile in termini di costi. I prompt hanno un limite di token e sono creati a partire da modelli strutturati (ad esempio, massimo 400 token con contesto).
-
L'ambito RAG contestuale evita di inserire documenti in eccesso in un prompt LLM. La knowledge base limita il recupero alle categorie di prodotti o ai domini politici pertinenti utilizzando il filtraggio dei metadati.
-
La memorizzazione nella cache dei risultati delle chiamate agli strumenti evita invocazioni Lambda duplicate quando gli utenti riformulano la frase. I risultati
lookupReturnWindowvengono memorizzati nella cache di DynamoDB con un TTL di 10 minuti.getOrderStatus -
Il modello di escalation basato sulla fiducia bilancia la qualità dell'esperienza con il controllo dei costi LLM. Se la fiducia nella risposta di Amazon Nova Lite (misurata in base all'euristica della struttura e delle espressioni regolari) è bassa, affidati a Anthropic Claude o a una coda di escalation umana.
-
Response validator Lambda riduce i token di output non necessari di circa il 25 percento. Questo approccio elimina i completamenti dettagliati del modello, formatta le risposte in output concisi e registra le dimensioni dei token.
-
L'etichettatura dei costi consente FinOps di generare report per funzione e per ambiente. Tutte le chiamate Amazon Bedrock sono contrassegnate con
Application=SupportAssistantEnvironment=Production, eTeam=CustomerSuccess.
Questo esempio mostra come scelte architettoniche intelligenti, come il routing dei modelli su più livelli, la memorizzazione nella cache, il recupero con ambito e il controllo delle inferenze, possano ridurre i costi operativi garantendo al contempo un'automazione del supporto scalabile e di alta qualità. L'esempio dell'assistente generativo basato sull'intelligenza artificiale fornisce un modello riutilizzabile che si applica a tutti i domini, come gli assistenti delle risorse umane, gli helpdesk IT, i bot di onboarding dei partner o gli assistenti alla formazione dei clienti. In ogni caso, il modello può aiutare a raggiungere un equilibrio tra efficienza dei costi, fiducia e scalabilità.
Monitoraggio e invio di avvisi per l'ottimizzazione dei costi
Quanto segue Servizi AWS aiuta a monitorare e ottimizzare i costi nei carichi di lavoro di intelligenza artificiale senza server:
-
CloudWatchle metriche tengono traccia dell'utilizzo del token Amazon Bedrock, della durata dei passaggi di Step Functions e del costo di chiamata Lambda.
-
Budget AWSavvisa i team quando vengono superate le soglie di costo (ad esempio, il costo giornaliero dei token).
-
AWS Cost Explorere Cost Categories forniscono visualizzazioni della spesa per app, team o modello.
-
I log delle API di Amazon Bedrock (completi CloudWatch) consentono l'analisi della struttura dei prompt e delle dimensioni della risposta.
-
I log di Amazon Athena e Amazon S3 supportano query una tantum o ad hoc sui dati di utilizzo esportati da o log personalizzati. AWS CloudTrail
Segnali di avvertimento per l'ottimizzazione
Monitora i seguenti segnali per identificare potenziali problemi di ottimizzazione dei costi:
-
Picco nell'utilizzo dei token: può indicare una modifica immediata, una nuova versione del modello o un eccessivo recupero di RAG.
-
Aumento della latenza di Amazon Bedrock: può portare a durate Lambda più lunghe e a un aumento del costo per inferenza.
-
Aumento del numero di chiamate agli strumenti per sessione di operatore: suggerisce un uso improprio dello strumento o una logica di richiesta inefficiente.
-
Passaggi Step Functions di lunga durata: potrebbero derivare da stati eccessivamente decomposti o da eventi asincroni bloccati.
-
Livello di modello sottoutilizzato: indica il pagamento per una precisione di livello superiore su richieste a basso rischio.
Riepilogo dell'ottimizzazione dei costi
L'ottimizzazione dei costi nei sistemi serverless basati sull'intelligenza artificiale non significa solo ridurre al minimo la spesa. Si tratta di allineare l'utilizzo dell'elaborazione e dei modelli al valore aziendale di ogni decisione. Con le giuste strategie, le organizzazioni possono scalare in modo responsabile e sicuro, bilanciando innovazione e controllo dei costi.
Combinando strategie di modello a più livelli, disciplina tempestiva e basata su token, ottimizzazione del flusso di lavoro, osservabilità e etichettatura, le aziende possono sfruttare al massimo gli investimenti in intelligenza artificiale senza sforare il budget.