As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Monitore a inferência fundamental usando métricas CloudWatch
O OpenAI-compatible endpoint Amazon Bedrock (bedrock-mantle.) publica métricas voltadas para o cliente na Amazon CloudWatch sob o namespace. region.api.awsAWS/BedrockMantle Use essas métricas para monitorar o volume de inferência, o consumo de tokens e as taxas de erro em seus Conta da AWS projetos e modelos.
Se seu aplicativo chama inferência bedrock-runtime. usando Converse,,, ou ConverseStreamInvokeModel, consulte Métricas de runtime do Amazon Bedrock em vez InvokeModelWithResponseStreamdisso. region.amazonaws.com.rproxy.govskope.cabedrock-mantleas métricas abrangem somente inferências emitidas por meio da API de respostas, da API de conclusão de bate-papo e da API de mensagens antrópicas no endpoint. bedrock-mantle
bedrock-mantlepublica métricas em quatro níveis de granularidade. Cada nível usa uma combinação diferente de CloudWatch dimensões, descrita emDimensões. Todas as métricas têm como escopo o seu Conta da AWS.
Métricas de inferência
| Nome da métrica | Unidade | Description |
|---|---|---|
Inferences |
Contagem | Número total de solicitações de inferência concluídas nas APIs de respostas, conclusões de bate-papo e mensagens. Publicado nos níveis Conta, Projeto, Modelo e Projeto+Modelo. |
InferenceClientErrors |
Contagem | Número de solicitações de inferência que falharam com um erro do lado do cliente (4xx). Publicado nos níveis Conta, Projeto, Modelo e Projeto+Modelo. |
Métricas de token
| Nome da métrica | Unidade | Description |
|---|---|---|
TotalInputTokens |
Contagem | Tokens de entrada agregáveis faturáveis processados dentro do intervalo de publicação. Publicado nos níveis de conta, projeto e modelo. Use para cálculos de somas e taxas. |
TotalOutputTokens |
Contagem | Tokens de saída agregáveis faturáveis gerados dentro do intervalo de publicação. Publicado nos níveis de conta, projeto e modelo. |
InputTokens |
Contagem | Per-inference tokens de entrada faturáveis. Cada inferência concluída emite um dado. Publicado somente no nível Projeto+Modelo. Use isso quando precisar de estatísticas percentuais (p50/p90/p99) de contagens de tokens por solicitação. |
OutputTokens |
Contagem | Per-inference tokens de saída faturáveis. Cada inferência concluída emite um dado. Publicado somente no nível Projeto+Modelo. |
Dimensões
| Nome da dimensão | Valores | Aplica-se a |
|---|---|---|
Project |
O ID do projeto associado à solicitação de inferência. | Projeto, projeto+modelo |
Model |
O identificador do modelo (por exemplo,anthropic.claude-opus-4-7). |
Modelo, projeto+modelo |
Account-level as métricas têm como escopo o seu Conta da AWS e não têm dimensões adicionais. Cada nível de granularidade é emitido de forma independente, portanto, uma única inferência contribui para todos os quatro níveis quando o projeto e o modelo podem ser resolvidos.
Escolhendo o nível de granularidade correto
-
Nível da conta — uso geral, taxa de erro e volume agregado de tokens. Adequado para painéis de alto nível e alarmes para toda a conta. Não é adequado para análise de custos, pois os preços variam de acordo com o modelo.
-
Nível do projeto — pacotes cumulativos por projeto para chargeback e painéis em nível de equipe.
-
Nível do modelo — uso por modelo e taxas de erro, adequados para migrar painéis criados com base na dimensão existente.
bedrock-runtimeModelId -
Nível de projeto+modelo — nível primário para análise de custos e latência percentual e análise de tokens. Use isso quando precisar da atribuição do projeto e da atribuição do modelo no mesmo datum.
Diferenças em relação às métricas fundamentais de tempo de execução
-
Namespace separado.
bedrock-mantlemétricas publicadas emAWS/BedrockMantle. Painéis e alarmes existentes criados contra eles nãoAWS/Bedrockbedrock-mantlecaptarão tráfego. -
Nomeação.
bedrock-mantleusaInferencesem vez deInvocations,TotalInputTokenseTotalOutputTokensem vez deInputTokenCounteOutputTokenCount, eInferenceClientErrorsem vez deInvocationClientErrors. -
Dimensão do projeto.
bedrock-mantleas métricas têm umaProjectdimensão quebedrock-runtimeas métricas não têm, permitindo a atribuição de custos por projeto. -
Cross-region inferência.
bedrock-mantleé somente na região. As métricas são emitidas na região que processou a solicitação e não são agregadas entre regiões da mesma forma que o tráfego de inferência entre regiões (CRIS) está ativado.bedrock-runtime -
Métricas de latência.
InvocationLatencyeTimeToFirstTokenos equivalentes ainda não foram publicados porbedrock-mantle.
Visualizando métricas fundamentais
Para ver bedrock-mantle as métricas no CloudWatch console:
-
Abra o CloudWatch console.
-
No painel de navegação, escolha Métricas, Todas as métricas.
-
Selecione o namespace
AWS/BedrockMantle. -
Selecione um nível de granularidade escolhendo o conjunto de dimensões que corresponde à sua consulta (por exemplo,
Project, Modelpara detalhamentos de projetos e modelos).
Você deve ter CloudWatch as permissões apropriadas para ler bedrock-mantle as métricas. Para obter mais informações, consulte Autenticação e controle de acesso para a Amazon CloudWatch no Guia CloudWatch do usuário da Amazon.