View a markdown version of this page

Monitore a inferência fundamental usando métricas CloudWatch - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Monitore a inferência fundamental usando métricas CloudWatch

O OpenAI-compatible endpoint Amazon Bedrock (bedrock-mantle.region.api.aws) publica métricas voltadas para o cliente na Amazon CloudWatch sob o namespace. AWS/BedrockMantle Use essas métricas para monitorar o volume de inferência, o consumo de tokens e as taxas de erro em seus Conta da AWS projetos e modelos.

Se seu aplicativo chama inferência bedrock-runtime.region.amazonaws.com usando Converse,,, ou ConverseStreamInvokeModel, consulte Métricas de runtime do Amazon Bedrock em vez InvokeModelWithResponseStreamdisso. bedrock-mantleas métricas abrangem somente inferências emitidas por meio da API de respostas, da API de conclusão de bate-papo e da API de mensagens antrópicas no endpoint. bedrock-mantle

bedrock-mantlepublica métricas em quatro níveis de granularidade. Cada nível usa uma combinação diferente de CloudWatch dimensões, descrita emDimensões. Todas as métricas têm como escopo o seu Conta da AWS.

Métricas de inferência

Métricas de inferência
Nome da métrica Unidade Description
Inferences Contagem Número total de solicitações de inferência concluídas nas APIs de respostas, conclusões de bate-papo e mensagens. Publicado nos níveis Conta, Projeto, Modelo e Projeto+Modelo.
InferenceClientErrors Contagem Número de solicitações de inferência que falharam com um erro do lado do cliente (4xx). Publicado nos níveis Conta, Projeto, Modelo e Projeto+Modelo.

Métricas de token

Métricas de token
Nome da métrica Unidade Description
TotalInputTokens Contagem Tokens de entrada agregáveis faturáveis processados dentro do intervalo de publicação. Publicado nos níveis de conta, projeto e modelo. Use para cálculos de somas e taxas.
TotalOutputTokens Contagem Tokens de saída agregáveis faturáveis gerados dentro do intervalo de publicação. Publicado nos níveis de conta, projeto e modelo.
InputTokens Contagem Per-inference tokens de entrada faturáveis. Cada inferência concluída emite um dado. Publicado somente no nível Projeto+Modelo. Use isso quando precisar de estatísticas percentuais (p50/p90/p99) de contagens de tokens por solicitação.
OutputTokens Contagem Per-inference tokens de saída faturáveis. Cada inferência concluída emite um dado. Publicado somente no nível Projeto+Modelo.

Dimensões

Dimensões
Nome da dimensão Valores Aplica-se a
Project O ID do projeto associado à solicitação de inferência. Projeto, projeto+modelo
Model O identificador do modelo (por exemplo,anthropic.claude-opus-4-7). Modelo, projeto+modelo

Account-level as métricas têm como escopo o seu Conta da AWS e não têm dimensões adicionais. Cada nível de granularidade é emitido de forma independente, portanto, uma única inferência contribui para todos os quatro níveis quando o projeto e o modelo podem ser resolvidos.

Escolhendo o nível de granularidade correto

  • Nível da conta — uso geral, taxa de erro e volume agregado de tokens. Adequado para painéis de alto nível e alarmes para toda a conta. Não é adequado para análise de custos, pois os preços variam de acordo com o modelo.

  • Nível do projeto — pacotes cumulativos por projeto para chargeback e painéis em nível de equipe.

  • Nível do modelo — uso por modelo e taxas de erro, adequados para migrar painéis criados com base na dimensão existente. bedrock-runtime ModelId

  • Nível de projeto+modelo — nível primário para análise de custos e latência percentual e análise de tokens. Use isso quando precisar da atribuição do projeto e da atribuição do modelo no mesmo datum.

Diferenças em relação às métricas fundamentais de tempo de execução

  • Namespace separado. bedrock-mantlemétricas publicadas emAWS/BedrockMantle. Painéis e alarmes existentes criados contra eles não AWS/Bedrock bedrock-mantle captarão tráfego.

  • Nomeação. bedrock-mantleusa Inferences em vez deInvocations, TotalInputTokens e TotalOutputTokens em vez de InputTokenCount eOutputTokenCount, e InferenceClientErrors em vez deInvocationClientErrors.

  • Dimensão do projeto. bedrock-mantleas métricas têm uma Project dimensão que bedrock-runtime as métricas não têm, permitindo a atribuição de custos por projeto.

  • Cross-region inferência. bedrock-mantleé somente na região. As métricas são emitidas na região que processou a solicitação e não são agregadas entre regiões da mesma forma que o tráfego de inferência entre regiões (CRIS) está ativado. bedrock-runtime

  • Métricas de latência. InvocationLatencye TimeToFirstToken os equivalentes ainda não foram publicados porbedrock-mantle.

Visualizando métricas fundamentais

Para ver bedrock-mantle as métricas no CloudWatch console:

  1. Abra o CloudWatch console.

  2. No painel de navegação, escolha Métricas, Todas as métricas.

  3. Selecione o namespace AWS/BedrockMantle.

  4. Selecione um nível de granularidade escolhendo o conjunto de dimensões que corresponde à sua consulta (por exemplo, Project, Model para detalhamentos de projetos e modelos).

Você deve ter CloudWatch as permissões apropriadas para ler bedrock-mantle as métricas. Para obter mais informações, consulte Autenticação e controle de acesso para a Amazon CloudWatch no Guia CloudWatch do usuário da Amazon.