Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Indicateurs de Slurm dans PCS AWS
AWS PCS prend en charge la fonction de métriques de Slurm, qui expose les données du cluster en temps réel via des points de terminaison HTTP compatibles avec Prometheus et d'autres systèmes de surveillance. Pour plus de détails, y compris l'impact sur les performances et les considérations de sécurité, consultez le guide des métriques
Conditions préalables
Avant d'activer les métriques Slurm, assurez-vous d'avoir :
-
Version du cluster : Slurm version 25.11 ou supérieure.
-
Groupe de sécurité : règles autorisant le trafic HTTP sur le port 6817 à partir des sources souhaitées.
Activer le point de terminaison des métriques
Définissez les paramètres Slurm personnalisés suivants au niveau du cluster :
-
MetricsType— Doit spécifier un plugin de métriques pris en charge, tel quemetrics/openmetrics. -
CommunicationParameters— Doit inclureenable_http.Important
L'activation
enable_httpexpose un point de terminaison HTTP non authentifié. Toute personne disposant d'un accès réseau au port 6817 peut lire les métriques des clusters, des tâches et des nœuds. Utilisez les règles des groupes de sécurité pour restreindre l'accès aux sources fiables uniquement. -
PrivateData— Ne doit pas être défini.
Pour plus d'informations sur les paramètres personnalisés de Slurm, consultez. Configuration des paramètres personnalisés de Slurm dans PCS AWS
Utiliser le point de terminaison des métriques
Interrogez le point de terminaison des métriques depuis un hôte disposant d'un accès réseau au contrôleur :
curl http://controller-ip:6817/metrics
Pour plus d'informations sur les métriques disponibles et la configuration du scraping, consultez le guide des métriques