Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
SageMaker HyperPodObservabilité d'Amazon avec Amazon Managed Grafana et Amazon Managed Service pour Prometheus
Amazon SageMaker HyperPod (SageMaker HyperPod) fournit un tableau de out-of-the-box bord complet qui vous donne un aperçu des tâches de développement du modèle de base (FM) et des ressources du cluster. Cette solution d'observabilité unifiée publie automatiquement les indicateurs clés sur Amazon Managed Service for Prometheus et les affiche dans les tableaux de bord Amazon Managed Grafana. Les tableaux de bord sont optimisés spécifiquement pour le développement FM avec une couverture approfondie de l'état du matériel, de l'utilisation des ressources et des performances au niveau des tâches. Avec ce module complémentaire, vous pouvez consolider les données de santé et de performance provenant de NVIDIA DCGM, des exportateurs de nœuds Kubernetes au niveau de l'instance, de l'adaptateur Elastic Fabric, des systèmes de fichiers intégrés, de Kubernetes, de APIs Kueue et des opérateurs de tâches. SageMaker HyperPod
Rubriques
Configuration du module complémentaire d' SageMaker HyperPodobservabilité
Exploration des métriques SageMaker HyperPod du cluster dans Amazon Managed Grafana
Personnalisation des indicateurs, des tableaux de bord et des alertes du SageMaker HyperPod cluster
Création de métriques SageMaker HyperPod de cluster personnalisées
Résolution des problèmes liés au module complémentaire SageMaker HyperPod d'observabilité Amazon