Métricas de inferência Métricas de token Dimensões Escolhendo o nível de granularidade correto Diferenças em relação às métricas fundamentais de tempo de execução Visualizando métricas fundamentais

Monitore a `inferência fundamental usando métricas` CloudWatch

O OpenAI-compatible endpoint Amazon Bedrock (bedrock-mantle.region.api.aws) publica métricas voltadas para o cliente na Amazon CloudWatch sob o namespace. AWS/BedrockMantle Use essas métricas para monitorar o volume de inferência, o consumo de tokens e as taxas de erro em seus Conta da AWS projetos e modelos.

Se seu aplicativo chama inferência bedrock-runtime.region.amazonaws.com usando Converse,,, ou ConverseStream InvokeModel, consulte Métricas de runtime do Amazon Bedrock em vez InvokeModelWithResponseStreamdisso. bedrock-mantleas métricas abrangem somente inferências emitidas por meio da API de respostas, da API de conclusão de bate-papo e da API de mensagens antrópicas no endpoint. bedrock-mantle

bedrock-mantlepublica métricas em quatro níveis de granularidade. Cada nível usa uma combinação diferente de CloudWatch dimensões, descrita emDimensões. Todas as métricas têm como escopo o seu Conta da AWS.

Métricas de inferência

Métricas de inferência
Nome da métrica	Unidade	Description
`Inferences`	Contagem	Número total de solicitações de inferência concluídas nas APIs de respostas, conclusões de bate-papo e mensagens. Publicado nos níveis Conta, Projeto, Modelo e Projeto+Modelo.
`InferenceClientErrors`	Contagem	Número de solicitações de inferência que falharam com um erro do lado do cliente (4xx). Publicado nos níveis Conta, Projeto, Modelo e Projeto+Modelo.

Métricas de token

Métricas de token
Nome da métrica	Unidade	Description
`TotalInputTokens`	Contagem	Tokens de entrada agregáveis faturáveis processados dentro do intervalo de publicação. Publicado nos níveis de conta, projeto e modelo. Use para cálculos de somas e taxas.
`TotalOutputTokens`	Contagem	Tokens de saída agregáveis faturáveis gerados dentro do intervalo de publicação. Publicado nos níveis de conta, projeto e modelo.
`InputTokens`	Contagem	Per-inference tokens de entrada faturáveis. Cada inferência concluída emite um dado. Publicado somente no nível Projeto+Modelo. Use isso quando precisar de estatísticas percentuais (p50/p90/p99) de contagens de tokens por solicitação.
`OutputTokens`	Contagem	Per-inference tokens de saída faturáveis. Cada inferência concluída emite um dado. Publicado somente no nível Projeto+Modelo.

Dimensões

Dimensões
Nome da dimensão	Valores	Aplica-se a
`Project`	O ID do projeto associado à solicitação de inferência.	Projeto, projeto+modelo
`Model`	O identificador do modelo (por exemplo,`anthropic.claude-opus-4-7`).	Modelo, projeto+modelo

Account-level as métricas têm como escopo o seu Conta da AWS e não têm dimensões adicionais. Cada nível de granularidade é emitido de forma independente, portanto, uma única inferência contribui para todos os quatro níveis quando o projeto e o modelo podem ser resolvidos.

Escolhendo o nível de granularidade correto

Nível da conta — uso geral, taxa de erro e volume agregado de tokens. Adequado para painéis de alto nível e alarmes para toda a conta. Não é adequado para análise de custos, pois os preços variam de acordo com o modelo.
Nível do projeto — pacotes cumulativos por projeto para chargeback e painéis em nível de equipe.
Nível do modelo — uso por modelo e taxas de erro, adequados para migrar painéis criados com base na dimensão existente. bedrock-runtime ModelId
Nível de projeto+modelo — nível primário para análise de custos e latência percentual e análise de tokens. Use isso quando precisar da atribuição do projeto e da atribuição do modelo no mesmo datum.

Diferenças em relação às métricas `fundamentais de tempo de execução`

Namespace separado. bedrock-mantlemétricas publicadas emAWS/BedrockMantle. Painéis e alarmes existentes criados contra eles não AWS/Bedrock bedrock-mantle captarão tráfego.
Nomeação. bedrock-mantleusa Inferences em vez deInvocations, TotalInputTokens e TotalOutputTokens em vez de InputTokenCount eOutputTokenCount, e InferenceClientErrors em vez deInvocationClientErrors.
Dimensão do projeto. bedrock-mantleas métricas têm uma Project dimensão que bedrock-runtime as métricas não têm, permitindo a atribuição de custos por projeto.
Cross-region inferência. bedrock-mantleé somente na região. As métricas são emitidas na região que processou a solicitação e não são agregadas entre regiões da mesma forma que o tráfego de inferência entre regiões (CRIS) está ativado. bedrock-runtime
Métricas de latência. InvocationLatencye TimeToFirstToken os equivalentes ainda não foram publicados porbedrock-mantle.

Visualizando `métricas fundamentais`

Para ver bedrock-mantle as métricas no CloudWatch console:

Abra o CloudWatch console.
No painel de navegação, escolha Métricas, Todas as métricas.
Selecione o namespace AWS/BedrockMantle.
Selecione um nível de granularidade escolhendo o conjunto de dimensões que corresponde à sua consulta (por exemplo, Project, Model para detalhamentos de projetos e modelos).

Você deve ter CloudWatch as permissões apropriadas para ler bedrock-mantle as métricas. Para obter mais informações, consulte Autenticação e controle de acesso para a Amazon CloudWatch no Guia CloudWatch do usuário da Amazon.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Monitore o manto rochoso

CloudTrail

Monitore a inferência fundamental usando métricas CloudWatch