View a markdown version of this page

Monitora l'inferenza tra basamento e mantello utilizzando le metriche CloudWatch - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Monitora l'inferenza tra basamento e mantello utilizzando le metriche CloudWatch

Amazon Bedrock OpenAI-compatible endpoint (bedrock-mantle.region.api.aws) pubblica i parametri rivolti ai clienti su Amazon nello spazio dei nomi. CloudWatch AWS/BedrockMantle Utilizza queste metriche per monitorare il volume di inferenza, il consumo di token e i tassi di errore nei tuoi progetti e modelli. Account AWS

Se la tua applicazione richiama l'inferenza bedrock-runtime.region.amazonaws.com utilizzando Converse,, o ConverseStreamInvokeModelInvokeModelWithResponseStream, vedi invece. Metriche di runtime Amazon Bedrock bedrock-mantlele metriche coprono solo l'inferenza emessa tramite l'API Responses, l'API Chat Completions e l'API Anthropic Messages sull'endpoint. bedrock-mantle

bedrock-mantlepubblica metriche a quattro livelli di granularità. Ogni livello utilizza una diversa combinazione di CloudWatch dimensioni, descritta in. Dimensioni Tutte le metriche si riferiscono al tuo. Account AWS

Metriche di inferenza

Metriche di inferenza
Nome parametro Unità Description
Inferences Conteggio Numero totale di richieste di inferenza completate tramite le API Responses, Chat Completions e Messages. Pubblicato a livello di Account, Project, Model e Project+Model.
InferenceClientErrors Conteggio Numero di richieste di inferenza non riuscite con un errore lato client (4xx). Pubblicato a livello di account, progetto, modello e progetto+modello.

Metriche dei token

Metriche dei token
Nome parametro Unità Description
TotalInputTokens Conteggio Token di input fatturabili aggregati elaborati entro l'intervallo di pubblicazione. Pubblicato a livello di account, progetto e modello. Utilizzato per somme e calcoli dei tassi.
TotalOutputTokens Conteggio Token di output fatturabili aggregati generati nell'intervallo di pubblicazione. Pubblicato a livello di account, progetto e modello.
InputTokens Conteggio Per-inference token di input fatturabili. Ogni inferenza completata emette un dato. Pubblicato solo a livello di progetto+modello. Usalo quando hai bisogno di statistiche percentili (p50/p90/p99) sul conteggio dei token per richiesta.
OutputTokens Conteggio Per-inference token di output fatturabili. Ogni inferenza completata emette un dato. Pubblicato solo a livello di progetto+modello.

Dimensioni

Dimensioni
Nome dimensione Valori Si applica a
Project L'ID del progetto associato alla richiesta di inferenza. Progetto, progetto+modello
Model L'identificatore del modello (ad esempio,). anthropic.claude-opus-4-7 Modello, progetto+modello

Account-level le metriche hanno un ambito specifico Account AWS e non hanno dimensioni aggiuntive. Ogni livello di granularità viene emesso in modo indipendente, quindi una singola inferenza contribuisce a tutti e quattro i livelli quando è possibile risolvere sia il progetto che il modello.

Scelta del giusto livello di granularità

  • Livello di account: utilizzo complessivo, tasso di errore e volume aggregato dei token. Adatto per dashboard di alto livello e allarmi a livello di account. Non adatto per l'analisi dei costi, poiché i prezzi variano in base al modello.

  • A livello di progetto: riepiloghi per progetto per chargeback e dashboard a livello di team.

  • Livello di modello: utilizzo e tassi di errore per modello, adatti per la migrazione di dashboard basati sulla dimensione esistente. bedrock-runtime ModelId

  • Livello progetto+modello: livello principale per l'analisi dei costi, la latenza percentile e l'analisi dei token. Usalo quando hai bisogno sia dell'attribuzione del progetto che dell'attribuzione del modello sullo stesso dato.

Differenze rispetto alle metriche di base in fase di esecuzione

  • Namespace separato. bedrock-mantlele metriche vengono pubblicate su. AWS/BedrockMantle Le dashboard e gli allarmi esistenti su cui sono stati creati non AWS/Bedrock aumenteranno il traffico. bedrock-mantle

  • Denominazione. bedrock-mantleusa Inferences piuttosto cheInvocations, TotalInputTokens e TotalOutputTokens piuttosto che InputTokenCount e OutputTokenCount InferenceClientErrors piuttosto InvocationClientErrors che.

  • Dimensione del progetto. bedrock-mantlele metriche hanno una Project dimensione diversa dalle bedrock-runtime metriche, che consente l'attribuzione dei costi per progetto.

  • Cross-region inferenza. bedrock-mantleè solo all'interno della regione. Le metriche vengono emesse nella regione che ha gestito la richiesta e non vengono aggregate tra le regioni allo stesso modo in cui è attivo il traffico di inferenza interregionale (CRIS). bedrock-runtime

  • Metriche di latenza. InvocationLatencye TimeToFirstToken gli equivalenti non sono ancora stati pubblicati da. bedrock-mantle

Visualizzazione delle metriche bedrock-mantle

Per visualizzare le metriche nella console: bedrock-mantle CloudWatch

  1. Apri la CloudWatch console.

  2. Nel pannello di navigazione, seleziona Metrics (Parametri), All metrics (Tutti i parametri).

  3. Scegli il namespace AWS/BedrockMantle.

  4. Seleziona un livello di granularità scegliendo il set di dimensioni che corrisponde alla tua query (ad esempio, Project, Model per le suddivisioni di progetti e modelli).

È necessario disporre delle autorizzazioni appropriate per leggere le metriche. CloudWatch bedrock-mantle Per ulteriori informazioni, consulta Autenticazione e controllo degli accessi per Amazon CloudWatch nella Amazon CloudWatch User Guide.