

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# SageMaker HyperPod surveillance des ressources du cluster
<a name="sagemaker-hyperpod-cluster-observability-slurm"></a>

Pour obtenir une observabilité complète des ressources et des composants logiciels de votre SageMaker HyperPod cluster, intégrez le cluster à [Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) et à [Amazon](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) Managed Grafana. L'intégration avec Amazon Managed Service for Prometheus permet d'exporter les métriques relatives aux ressources de HyperPod votre cluster, fournissant ainsi des informations sur leurs performances, leur utilisation et leur état de santé. L’intégration avec Amazon Managed Grafana permet de visualiser ces métriques via différents tableaux de bord Grafana, qui offrent une interface intuitive pour surveiller et analyser le comportement du cluster. En tirant parti de ces services, vous bénéficiez d'une vue centralisée et unifiée de votre HyperPod cluster, ce qui facilite la surveillance proactive, le dépannage et l'optimisation de vos charges de travail de formation distribuées.

**Astuce**  
Pour trouver des exemples pratiques et des solutions, consultez également l'[SageMaker HyperPodatelier](https://catalog.workshops.aws/sagemaker-hyperpod).

![Présentation de la configuration SageMaker HyperPod avec Amazon Managed Service pour Prometheus et Amazon Managed Grafana.](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/hyperpod-observability-architecture.png)


Figure : Ce schéma d'architecture présente une vue d'ensemble de la configuration SageMaker HyperPod avec Amazon Managed Service for Prometheus et Amazon Managed Grafana.

Passez aux rubriques suivantes pour configurer l'observabilité SageMaker HyperPod du cluster.

**Topics**
+ [Conditions préalables à l'observabilité des SageMaker HyperPod clusters](sagemaker-hyperpod-cluster-observability-slurm-prerequisites.md)
+ [Installation de packages d'exportation de métriques sur votre HyperPod cluster](sagemaker-hyperpod-cluster-observability-slurm-install-exporters.md)
+ [Validation de la configuration de Prometheus sur le nœud principal d'un cluster HyperPod](sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup.md)
+ [Configuration d’un espace de travail Amazon Managed Grafana](sagemaker-hyperpod-cluster-observability-slurm-managed-grafana-ws.md)
+ [Référence des métriques exportées](sagemaker-hyperpod-cluster-observability-slurm-exported-metrics-reference.md)
+ [Statistiques d'Amazon SageMaker HyperPod Slurm](smcluster-slurm-metrics.md)