View a markdown version of this page

Supervise la inferencia del manto rocoso mediante métricas CloudWatch - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Supervise la inferencia del manto rocoso mediante métricas CloudWatch

El OpenAI-compatible punto final de Amazon Bedrock (bedrock-mantle.region.api.aws) publica las métricas orientadas a los clientes en Amazon en el espacio de CloudWatch nombres. AWS/BedrockMantle Utilice estas métricas para supervisar el volumen de inferencias, el consumo de fichas y las tasas de error en sus Cuenta de AWS proyectos y modelos.

Si su aplicación realiza inferencias bedrock-runtime.region.amazonaws.com mediante Converse, ConverseStreamInvokeModelInvokeModelWithResponseStream, o consulte en su lugar. Métricas en tiempo de ejecución de Amazon Bedrock bedrock-mantlelas métricas solo cubren las inferencias emitidas a través de la API de respuestas, la API de finalización de chat y la API de mensajes antrópicos en el punto final. bedrock-mantle

bedrock-mantlepublica las métricas en cuatro niveles de granularidad. Cada nivel utiliza una combinación diferente de CloudWatch dimensiones, como se describe enDimensiones. Todas las métricas se ajustan a su Cuenta de AWS alcance.

Métricas de inferencia

Métricas de inferencia
Nombre de métrica Unidad Description (Descripción)
Inferences Recuento Número total de solicitudes de inferencia completadas en las API de respuestas, finalizaciones de chat y mensajes. Se publican a nivel de cuenta, proyecto, modelo y proyecto+modelo.
InferenceClientErrors Recuento Número de solicitudes de inferencia que fallaron debido a un error del lado del cliente (4xx). Publicado en los niveles de cuenta, proyecto, modelo y proyecto+modelo.

Métricas simbólicas

Métricas simbólicas
Nombre de métrica Unidad Description (Descripción)
TotalInputTokens Recuento Agregue los tokens de entrada facturables procesados dentro del intervalo de publicación. Se publican a nivel de cuenta, proyecto y modelo. Se utiliza para calcular sumas y tasas.
TotalOutputTokens Recuento Agregue los tokens de salida facturables generados dentro del intervalo de publicación. Se publican a nivel de cuenta, proyecto y modelo.
InputTokens Recuento Per-inference fichas de entrada facturables. Cada inferencia completada emite un dato. Publicado únicamente a nivel de proyecto+modelo. Úselo cuando necesite estadísticas porcentuales (p50/p90/p99) de los recuentos de tokens por solicitud.
OutputTokens Recuento Per-inference fichas de salida facturables. Cada inferencia completada emite un dato. Publicado únicamente a nivel de proyecto+modelo.

Dimensiones

Dimensiones
Nombre de la dimensión Valores Aplica a
Project El ID del proyecto asociado a la solicitud de inferencia. Proyecto, proyecto+modelo
Model El identificador del modelo (por ejemplo,anthropic.claude-opus-4-7). Modelo, proyecto+modelo

Account-level las métricas se ajustan a su ámbito Cuenta de AWS y no tienen dimensiones adicionales. Cada nivel de granularidad se emite de forma independiente, por lo que una sola inferencia contribuye a los cuatro niveles cuando se pueden resolver tanto el proyecto como el modelo.

Elegir el nivel de granularidad correcto

  • Nivel de cuenta: uso general, tasa de errores y volumen total de fichas. Adecuado para paneles de control de alto nivel y alarmas en toda la cuenta. No es adecuado para el análisis de costes, ya que los precios varían según el modelo.

  • A nivel de proyecto: resúmenes por proyecto para cuadros de mando a nivel de equipo y de devolución de cargos.

  • Nivel de modelo: tasas de uso y error por modelo, adecuadas para migrar paneles creados en función de la dimensión existente. bedrock-runtime ModelId

  • Nivel de proyecto y modelo: nivel principal para el análisis de costes y el análisis de la latencia percentil y el análisis de fichas. Úselo cuando necesite la atribución del proyecto y la atribución del modelo en el mismo dato.

Diferencias con respecto a las métricas fundamentales de tiempo de ejecución

  • Espacio de nombres independiente. bedrock-mantlelas métricas se publican en. AWS/BedrockMantle Los paneles de control y las alarmas existentes creados no AWS/Bedrock captarán bedrock-mantle tráfico.

  • Denominación. bedrock-mantleusa Inferences en lugar deInvocations, TotalInputTokens y TotalOutputTokens en lugar de InputTokenCount yOutputTokenCount, y InferenceClientErrors en lugar deInvocationClientErrors.

  • Dimensión del proyecto. bedrock-mantlelas métricas tienen una Project dimensión que bedrock-runtime las métricas no tienen, lo que permite la atribución de costes por proyecto.

  • Cross-region inferencia. bedrock-mantleestá solo en la región. Las métricas se emiten en la región que gestionó la solicitud y no se agregan entre regiones de la misma manera en que está activado el tráfico de inferencia transregional (CRIS). bedrock-runtime

  • Métricas de latencia. InvocationLatencyy TimeToFirstToken sus equivalentes aún no han sido publicados porbedrock-mantle.

Visualización de las métricas del manto rocoso

Para ver las bedrock-mantle métricas en la consola: CloudWatch

  1. Abre la CloudWatch consola.

  2. En el panel de navegación, seleccione Métricas y, a continuación, Todas las métricas.

  3. Elija el espacio de nombres AWS/BedrockMantle.

  4. Seleccione un nivel de granularidad eligiendo el conjunto de dimensiones que coincida con su consulta (por ejemplo, Project, Model para desgloses de proyectos y modelos).

Debe tener los CloudWatch permisos adecuados para leer las métricas. bedrock-mantle Para obtener más información, consulta Autenticación y control de acceso para Amazon CloudWatch en la Guía del CloudWatch usuario de Amazon.