Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Monitora l'inferenza tra basamento e mantello utilizzando le metriche CloudWatch
Amazon Bedrock OpenAI-compatible endpoint (bedrock-mantle.) pubblica i parametri rivolti ai clienti su Amazon nello spazio dei nomi. CloudWatch region.api.awsAWS/BedrockMantle Utilizza queste metriche per monitorare il volume di inferenza, il consumo di token e i tassi di errore nei tuoi progetti e modelli. Account AWS
Se la tua applicazione richiama l'inferenza bedrock-runtime. utilizzando Converse,, o ConverseStreamInvokeModelInvokeModelWithResponseStream, vedi invece. Metriche di runtime Amazon Bedrock region.amazonaws.com.rproxy.govskope.cabedrock-mantlele metriche coprono solo l'inferenza emessa tramite l'API Responses, l'API Chat Completions e l'API Anthropic Messages sull'endpoint. bedrock-mantle
bedrock-mantlepubblica metriche a quattro livelli di granularità. Ogni livello utilizza una diversa combinazione di CloudWatch dimensioni, descritta in. Dimensioni Tutte le metriche si riferiscono al tuo. Account AWS
Metriche di inferenza
| Nome parametro | Unità | Description |
|---|---|---|
Inferences |
Conteggio | Numero totale di richieste di inferenza completate tramite le API Responses, Chat Completions e Messages. Pubblicato a livello di Account, Project, Model e Project+Model. |
InferenceClientErrors |
Conteggio | Numero di richieste di inferenza non riuscite con un errore lato client (4xx). Pubblicato a livello di account, progetto, modello e progetto+modello. |
Metriche dei token
| Nome parametro | Unità | Description |
|---|---|---|
TotalInputTokens |
Conteggio | Token di input fatturabili aggregati elaborati entro l'intervallo di pubblicazione. Pubblicato a livello di account, progetto e modello. Utilizzato per somme e calcoli dei tassi. |
TotalOutputTokens |
Conteggio | Token di output fatturabili aggregati generati nell'intervallo di pubblicazione. Pubblicato a livello di account, progetto e modello. |
InputTokens |
Conteggio | Per-inference token di input fatturabili. Ogni inferenza completata emette un dato. Pubblicato solo a livello di progetto+modello. Usalo quando hai bisogno di statistiche percentili (p50/p90/p99) sul conteggio dei token per richiesta. |
OutputTokens |
Conteggio | Per-inference token di output fatturabili. Ogni inferenza completata emette un dato. Pubblicato solo a livello di progetto+modello. |
Dimensioni
| Nome dimensione | Valori | Si applica a |
|---|---|---|
Project |
L'ID del progetto associato alla richiesta di inferenza. | Progetto, progetto+modello |
Model |
L'identificatore del modello (ad esempio,). anthropic.claude-opus-4-7 |
Modello, progetto+modello |
Account-level le metriche hanno un ambito specifico Account AWS e non hanno dimensioni aggiuntive. Ogni livello di granularità viene emesso in modo indipendente, quindi una singola inferenza contribuisce a tutti e quattro i livelli quando è possibile risolvere sia il progetto che il modello.
Scelta del giusto livello di granularità
-
Livello di account: utilizzo complessivo, tasso di errore e volume aggregato dei token. Adatto per dashboard di alto livello e allarmi a livello di account. Non adatto per l'analisi dei costi, poiché i prezzi variano in base al modello.
-
A livello di progetto: riepiloghi per progetto per chargeback e dashboard a livello di team.
-
Livello di modello: utilizzo e tassi di errore per modello, adatti per la migrazione di dashboard basati sulla dimensione esistente.
bedrock-runtimeModelId -
Livello progetto+modello: livello principale per l'analisi dei costi, la latenza percentile e l'analisi dei token. Usalo quando hai bisogno sia dell'attribuzione del progetto che dell'attribuzione del modello sullo stesso dato.
Differenze rispetto alle metriche di base in fase di esecuzione
-
Namespace separato.
bedrock-mantlele metriche vengono pubblicate su.AWS/BedrockMantleLe dashboard e gli allarmi esistenti su cui sono stati creati nonAWS/Bedrockaumenteranno il traffico.bedrock-mantle -
Denominazione.
bedrock-mantleusaInferencespiuttosto cheInvocations,TotalInputTokenseTotalOutputTokenspiuttosto cheInputTokenCounteOutputTokenCountInferenceClientErrorspiuttostoInvocationClientErrorsche. -
Dimensione del progetto.
bedrock-mantlele metriche hanno unaProjectdimensione diversa dallebedrock-runtimemetriche, che consente l'attribuzione dei costi per progetto. -
Cross-region inferenza.
bedrock-mantleè solo all'interno della regione. Le metriche vengono emesse nella regione che ha gestito la richiesta e non vengono aggregate tra le regioni allo stesso modo in cui è attivo il traffico di inferenza interregionale (CRIS).bedrock-runtime -
Metriche di latenza.
InvocationLatencyeTimeToFirstTokengli equivalenti non sono ancora stati pubblicati da.bedrock-mantle
Visualizzazione delle metriche bedrock-mantle
Per visualizzare le metriche nella console: bedrock-mantle CloudWatch
-
Apri la CloudWatch console.
-
Nel pannello di navigazione, seleziona Metrics (Parametri), All metrics (Tutti i parametri).
-
Scegli il namespace
AWS/BedrockMantle. -
Seleziona un livello di granularità scegliendo il set di dimensioni che corrisponde alla tua query (ad esempio,
Project, Modelper le suddivisioni di progetti e modelli).
È necessario disporre delle autorizzazioni appropriate per leggere le metriche. CloudWatch bedrock-mantle Per ulteriori informazioni, consulta Autenticazione e controllo degli accessi per Amazon CloudWatch nella Amazon CloudWatch User Guide.