Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Le metriche di Slurm nei PCS AWS
AWS PCS supporta la funzionalità metrica di Slurm, che espone i dati del cluster in tempo reale tramite endpoint HTTP compatibili con Prometheus e altri sistemi di monitoraggio. Per i dettagli, tra cui l'impatto sulle prestazioni e le considerazioni sulla sicurezza, consulta la Metrics Guide nella documentazione di Slurm.
Prerequisiti
Prima di abilitare le metriche Slurm, assicurati di avere:
-
Versione cluster: Slurm versione 25.11 o successiva.
-
Gruppo di sicurezza: regole che consentono il traffico HTTP sulla porta 6817 dalle sorgenti desiderate.
Abilita l'endpoint delle metriche
Imposta le seguenti impostazioni Slurm personalizzate a livello di cluster:
-
MetricsType— È necessario specificare un plug-in per le metriche supportato, ad esempio.metrics/openmetrics -
CommunicationParameters— Deve includereenable_http.Importante
L'abilitazione
enable_httpespone un endpoint HTTP non autenticato. Chiunque abbia accesso di rete alla porta 6817 può leggere le metriche di cluster, job e node. Utilizza le regole dei gruppi di sicurezza per limitare l'accesso solo a fonti attendibili. -
PrivateData— Non deve essere impostato.
Per ulteriori informazioni sulle impostazioni personalizzate di Slurm, vedere. Configurazione delle impostazioni Slurm personalizzate in PCS AWS
Usa l'endpoint delle metriche
Interroga l'endpoint delle metriche da un host con accesso di rete al controller:
curl http://controller-ip:6817/metrics
Per ulteriori informazioni sulle metriche disponibili e sulla configurazione dello scraping, consulta la Metrics Guide