

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Observabilité pour le SageMaker HyperPod cluster Amazon orchestrée par Amazon EKS
<a name="sagemaker-hyperpod-eks-cluster-observability"></a>

Pour obtenir une observabilité complète des ressources et des composants logiciels de votre cluster Amazon SageMaker HyperPod (SageMaker HyperPod), intégrez le cluster à [Amazon CloudWatch Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html), [Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) et [Amazon](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) Managed Grafana. Ces outils assurent la visibilité de l’état du cluster, des métriques de performance et de l’utilisation des ressources.

L'intégration avec Amazon Managed Service for Prometheus permet d'exporter les métriques relatives aux ressources de HyperPod votre cluster, fournissant ainsi des informations sur leurs performances, leur utilisation et leur état de santé. L’intégration avec Amazon Managed Grafana permet de visualiser ces métriques via différents tableaux de bord Grafana, qui offrent une interface intuitive pour surveiller et analyser le comportement du cluster. En tirant parti de ces services, vous bénéficiez d'une vue centralisée et unifiée de votre HyperPod cluster, ce qui facilite la surveillance proactive, le dépannage et l'optimisation de vos charges de travail de formation distribuées.

**Note**  
Alors qu' CloudWatchAmazon Managed Service for Prometheus et Amazon Managed Grafana se concentrent sur les indicateurs opérationnels (par exemple, l'état du système, les performances professionnelles en formation) SageMaker HyperPod , les rapports d'utilisation [complètent la gouvernance des tâches](sagemaker-hyperpod-eks-operate-console-ui-governance.md) pour fournir des informations sur la responsabilité financière et en matière de ressources. Ces rapports font le suivi des points suivants :  
Utilisation du calcul (GPU/CPU/Neuron Core hours) across namespaces/teams
Attribution des coûts pour les ressources allouées et empruntées
Tendances historiques (jusqu’à 180 jours) pour l’audit et l’optimisation
Pour plus d'informations sur la configuration et la génération de rapports d'utilisation, voir [Signaler l'utilisation du calcul dans HyperPod](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-usage-reporting.html). 

**Astuce**  
Pour trouver des exemples pratiques et des solutions, consultez également la section [Observabilité](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e/en-US/06-observability) de l'[ SageMaker HyperPod atelier Amazon EKS Support in](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e).

Passez aux rubriques suivantes pour configurer l'observabilité SageMaker HyperPod du cluster.

**Topics**
+ [Observabilité du modèle pour les tâches de formation sur des SageMaker HyperPod clusters orchestrés par Amazon EKS](sagemaker-hyperpod-eks-cluster-observability-model.md)
+ [Observabilité des clusters et des tâches](sagemaker-hyperpod-eks-cluster-observability-cluster.md)