View a markdown version of this page

Indicateurs de Slurm dans PCS AWS - AWS PCS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Indicateurs de Slurm dans PCS AWS

AWS PCS prend en charge la fonction de métriques de Slurm, qui expose les données du cluster en temps réel via des points de terminaison HTTP compatibles avec Prometheus et d'autres systèmes de surveillance. Pour plus de détails, y compris l'impact sur les performances et les considérations de sécurité, consultez le guide des métriques dans la documentation de Slurm.

Conditions préalables

Avant d'activer les métriques Slurm, assurez-vous d'avoir :

  • Version du cluster : Slurm version 25.11 ou supérieure.

  • Groupe de sécurité : règles autorisant le trafic HTTP sur le port 6817 à partir des sources souhaitées.

Activer le point de terminaison des métriques

Définissez les paramètres Slurm personnalisés suivants au niveau du cluster :

  • MetricsType— Doit spécifier un plugin de métriques pris en charge, tel quemetrics/openmetrics.

  • CommunicationParameters— Doit inclureenable_http.

    Important

    L'activation enable_http expose un point de terminaison HTTP non authentifié. Toute personne disposant d'un accès réseau au port 6817 peut lire les métriques des clusters, des tâches et des nœuds. Utilisez les règles des groupes de sécurité pour restreindre l'accès aux sources fiables uniquement.

  • PrivateDataNe doit pas être défini.

Pour plus d'informations sur les paramètres personnalisés de Slurm, consultez. Configuration des paramètres personnalisés de Slurm dans PCS AWS

Utiliser le point de terminaison des métriques

Interrogez le point de terminaison des métriques depuis un hôte disposant d'un accès réseau au contrôleur :

curl http://controller-ip:6817/metrics

Pour plus d'informations sur les métriques disponibles et la configuration du scraping, consultez le guide des métriques dans la documentation de Slurm.