Osservabilità dell'IA generativa
Con Amazon CloudWatch, puoi osservare carichi di lavoro di IA generativa, inclusi gli agenti Amazon Bedrock AgentCore
L'osservabilità dell'IA generativa di CloudWatch ti consente di:
-
Ottenere informazioni dettagliate sui risultati per gli utenti finali, sulle prestazioni dell'IA, sull'integrità e sulla precisione, riducendo al contempo il carico di valutazione human-in-the-loop (HITL)
-
Monitorare le invocazioni dei modelli, gli agenti (gestiti, ospitati autonomamente e di terze parti), le knowledge base, i guardrail e gli strumenti
-
Passare dalla sperimentazione degli agenti alla produzione di applicazioni basate sull'IA generativa innovative, garantendo al contempo qualità, prestazioni e affidabilità superiori. Per maggiori informazioni, consulta Cos'è Amazon Bedrock AgentCore.
-
Identificare rapidamente l'origine degli errori utilizzando il tracciamento dei prompt end-to-end, log e metriche curate
-
Risolvere i problemi nell'intera applicazione basata sull'IA generativa e nell'infrastruttura sottostante, sfruttando gli strumenti di osservabilità di CloudWatch esistenti come Application Signals, allarmi, pannelli di controllo, protezione dei dati sensibili e Approfondimenti di Logs
-
Accedere alle tracce dei prompt utilizzando Amazon Bedrock e inviare tracce strutturate di modelli di terze parti a CloudWatch utilizzando l'SDK ADOT. Per informazioni sull'aggiunta di osservabilità al tuo agente o strumento Amazon Bedrock AgentCore, consulta Amazon Bedrock AgentCore.
L'osservabilità dell'IA generativa di CloudWatch offre due pannelli di controllo predefiniti:
Nota
Per visualizzare il pannello di controllo Invocazione del modello, è necessario abilitare Amazon Bedrock.
-
Invocazioni del modello: metriche dettagliate sull'utilizzo del modello, sul consumo di token e sui costi
-
Agenti Amazon Bedrock AgentCore: metriche relative a prestazioni e decisioni per gli agenti Amazon Bedrock
Le metriche chiave disponibili in questo pannello di controllo includono:
-
Invocazioni totali e medie
-
Utilizzo dei token (totale, media per query, input, output)
-
Latenza (media, P90, P99)
-
Tassi di errore ed eventi di limitazione
-
Attribuzione dei costi per applicazione, ruolo utente o utente specifico