View a markdown version of this page

Le metriche di Slurm nei PCS AWS - AWS PC

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le metriche di Slurm nei PCS AWS

AWS PCS supporta la funzionalità metrica di Slurm, che espone i dati del cluster in tempo reale tramite endpoint HTTP compatibili con Prometheus e altri sistemi di monitoraggio. Per i dettagli, tra cui l'impatto sulle prestazioni e le considerazioni sulla sicurezza, consulta la Metrics Guide nella documentazione di Slurm.

Prerequisiti

Prima di abilitare le metriche Slurm, assicurati di avere:

  • Versione cluster: Slurm versione 25.11 o successiva.

  • Gruppo di sicurezza: regole che consentono il traffico HTTP sulla porta 6817 dalle sorgenti desiderate.

Abilita l'endpoint delle metriche

Imposta le seguenti impostazioni Slurm personalizzate a livello di cluster:

  • MetricsType— È necessario specificare un plug-in per le metriche supportato, ad esempio. metrics/openmetrics

  • CommunicationParameters— Deve includereenable_http.

    Importante

    L'abilitazione enable_http espone un endpoint HTTP non autenticato. Chiunque abbia accesso di rete alla porta 6817 può leggere le metriche di cluster, job e node. Utilizza le regole dei gruppi di sicurezza per limitare l'accesso solo a fonti attendibili.

  • PrivateDataNon deve essere impostato.

Per ulteriori informazioni sulle impostazioni personalizzate di Slurm, vedere. Configurazione delle impostazioni Slurm personalizzate in PCS AWS

Usa l'endpoint delle metriche

Interroga l'endpoint delle metriche da un host con accesso di rete al controller:

curl http://controller-ip:6817/metrics

Per ulteriori informazioni sulle metriche disponibili e sulla configurazione dello scraping, consulta la Metrics Guide nella documentazione di Slurm.