Observabilité de l’IA générative - Amazon CloudWatch

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Observabilité de l’IA générative

Avec Amazon CloudWatch, vous pouvez observer les charges de travail génératives liées à l'IA, y compris les AgentCore agents Amazon Bedrock, et obtenir des informations sur les performances, la santé et la précision de l'IA. CloudWatch fournit des vues préconfigurées de la latence, de l'utilisation et des erreurs de vos charges de travail d'IA, ce qui vous permet de détecter les problèmes plus rapidement dans des composants tels que les modèles et les agents. End-to-endle suivi rapide vous permet d'identifier rapidement les problèmes liés à des composants tels que les bases de connaissances, les outils et les modèles. CloudWatchles capacités de surveillance de l'IA sont compatibles avec les frameworks d'orchestration d'IA générative populaires tels que AWS LangChain Strands et LangGraph offrent une flexibilité quant au choix du framework.

CloudWatch l'observabilité générative de l'IA vous permet de :

CloudWatch l'observabilité générative de l'IA fournit deux fonctionnalités prédéfinies :

Note

Vous pouvez utiliser le tableau de bord Model Invocation en utilisant n'importe quel modèle à des fins d'inférence dans Amazon Bedrock.

  • Invocations de modèles : tableau de bord détaillé des métriques sur l'utilisation du modèle, la consommation de jetons, et tableau des journaux d'invocation organisé pour afficher le contenu détaillé des entrées et sorties des inférences du modèle

  • AgentCore Agents Amazon Bedrock : indicateurs de performance et de décision pour les primitives d'Amazon Bedrock, AgentCore telles que les agents, la mémoire, les outils intégrés, les passerelles et l'identité

Les métriques clés disponibles dans ces tableaux de bord comprennent :

  • Nombre total et moyen d’invocations

  • Utilisation des jetons (total, moyenne par requête, entrée, sortie)

  • Latence (moyenne, P90, P99)

  • Taux d’erreur et événements de limitation

  • Attribution des coûts par application, rôle utilisateur ou utilisateur spécifique