View a markdown version of this page

Surveillez l'inférence entre le substrat rocheux et le manteau à l'aide de métriques CloudWatch - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Surveillez l'inférence entre le substrat rocheux et le manteau à l'aide de métriques CloudWatch

Le point de OpenAI-compatible terminaison Amazon Bedrock (bedrock-mantle.region.api.aws) publie des statistiques destinées aux clients sur Amazon CloudWatch sous l'espace de noms. AWS/BedrockMantle Utilisez ces indicateurs pour surveiller le volume d'inférence, la consommation de jetons et les taux d'erreur dans l'ensemble de vos Compte AWS projets et modèles.

Si votre application fait appel à l'inférence à bedrock-runtime.region.amazonaws.com l'aide de Converse ConverseStream, InvokeModel, ou InvokeModelWithResponseStream, voir Métriques d’exécution Amazon Bedrock plutôt. bedrock-mantleles métriques couvrent uniquement les inférences émises via l'API Responses, l'API Chat Completions et l'API Anthropic Messages sur le terminal. bedrock-mantle

bedrock-mantlepublie des métriques à quatre niveaux de granularité. Chaque niveau utilise une combinaison de CloudWatch dimensions différente, décrite dansDimensions. Toutes les mesures sont adaptées à vos besoins. Compte AWS

Métriques d’inférence

Métriques d’inférence
Nom de la métrique Unité Description
Inferences Nombre Nombre total de demandes d'inférence traitées dans les API Responses, Chat Completions et Messages. Publié aux niveaux du compte, du projet, du modèle et du projet+modèle.
InferenceClientErrors Nombre Nombre de demandes d'inférence qui ont échoué en raison d'une erreur côté client (4xx). Publié aux niveaux du compte, du projet, du modèle et du projet+modèle.

Métriques relatives aux jetons

Métriques relatives aux jetons
Nom de la métrique Unité Description
TotalInputTokens Nombre Agrégez les jetons d'entrée facturables traités pendant l'intervalle de publication. Publié au niveau du compte, du projet et du modèle. À utiliser pour les sommes et le calcul des taux.
TotalOutputTokens Nombre Agrégez les jetons de sortie facturables générés pendant l'intervalle de publication. Publié au niveau du compte, du projet et du modèle.
InputTokens Nombre Per-inference jetons d'entrée facturables. Chaque inférence terminée émet une donnée. Publié uniquement au niveau Project+Modèle. Utilisez-le lorsque vous avez besoin de statistiques percentiles (p50/p90/p99) du nombre de jetons par demande.
OutputTokens Nombre Per-inference jetons de sortie facturables. Chaque inférence terminée émet une donnée. Publié uniquement au niveau Project+Modèle.

Dimensions

Dimensions
Nom de la dimension Valeurs S’applique à
Project L'ID de projet associé à la demande d'inférence. Projet, Project+Modèle
Model L'identifiant du modèle (par exemple,anthropic.claude-opus-4-7). Modèle, projet+modèle

Account-level les statistiques sont limitées à votre portée Compte AWS et n'ont aucune dimension supplémentaire. Chaque niveau de granularité émet indépendamment, de sorte qu'une seule inférence contribue aux quatre niveaux lorsque le projet et le modèle peuvent être résolus.

Choisir le bon niveau de granularité

  • Niveau du compte : utilisation globale, taux d'erreur et volume global de jetons. Convient aux tableaux de bord de haut niveau et aux alarmes à l'échelle du compte. Ne convient pas à l'analyse des coûts, car les prix varient selon le modèle.

  • Au niveau du projet : cumulatifs par projet pour les rétrofacturations et les tableaux de bord au niveau de l'équipe.

  • Niveau du modèle : taux d'utilisation et d'erreur par modèle, adaptés à la migration de tableaux de bord basés sur la dimension existante. bedrock-runtime ModelId

  • Niveau Project+Modèle : niveau principal pour l'analyse des coûts, ainsi que pour l'analyse des percentiles et des jetons. Utilisez-le lorsque vous avez besoin à la fois d'une attribution de projet et d'une attribution de modèle sur la même donnée.

Différences par rapport aux indicateurs du temps d'exécution de Bedrock

  • Espace de noms séparé. bedrock-mantleles métriques sont publiées surAWS/BedrockMantle. Les tableaux de bord et les alarmes existants ne AWS/Bedrock détecteront pas le bedrock-mantle trafic.

  • Dénomination. bedrock-mantleutilise Inferences plutôt queInvocations, TotalInputTokens et TotalOutputTokens plutôt que InputTokenCount etOutputTokenCount, et InferenceClientErrors plutôt queInvocationClientErrors.

  • Dimension du projet. bedrock-mantleles métriques ont une Project dimension que bedrock-runtime les métriques n'ont pas, ce qui permet une attribution des coûts par projet.

  • Cross-region inférence. bedrock-mantleest disponible uniquement dans la région. Les métriques sont émises dans la région qui a traité la demande et ne sont pas agrégées entre les régions de la même manière que le trafic d'inférence interrégional (CRIS). bedrock-runtime

  • Métriques de latence. InvocationLatencyet TimeToFirstToken les équivalents ne sont pas encore publiés parbedrock-mantle.

Visualisation des paramètres du substrat rocheux

Pour consulter bedrock-mantle les métriques dans la CloudWatch console :

  1. Ouvrez la CloudWatch console.

  2. Dans le panneau de navigation, sélectionnez Métriques, Toutes les métriques.

  3. Choisissez l’espace de nom AWS/BedrockMantle.

  4. Sélectionnez un niveau de granularité en choisissant le jeu de dimensions correspondant à votre requête (par exemple, Project, Model pour les ventilations par projet et par modèle).

Vous devez disposer des CloudWatch autorisations appropriées pour lire bedrock-mantle les métriques. Pour plus d'informations, consultez Authentification et contrôle d'accès pour Amazon CloudWatch dans le guide de CloudWatch l'utilisateur Amazon.