

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Convalida della configurazione di Prometheus sul nodo principale di un cluster HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup"></a>

Dopo aver configurato correttamente il HyperPod cluster installato con i pacchetti exporter, controlla se Prometheus è configurato correttamente sul nodo principale del cluster. HyperPod 

1. Connettiti al nodo head del cluster. Per istruzioni su come accedere a un nodo, consulta [Accesso ai nodi SageMaker HyperPod del cluster](sagemaker-hyperpod-run-jobs-slurm-access-nodes.md).

1. Utilizza il comando seguente per verificare che il file di configurazione e servizio di Prometheus creato dallo script del ciclo di vita `install_prometheus.sh` sia in esecuzione sul nodo controller. L’output dovrebbe mostrare lo stato Attivo **active (running)**.

   ```
   $ sudo systemctl status prometheus
   • prometheus service - Prometheus Exporter
   Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
   Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
   Main PID: 12345 (prometheus)
   Tasks: 7 (limit: 9281)
   Memory: 35M
   CPU: 234ms
   CGroup: /system.slice/prometheus.service
           -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
   ```

1. Convalida il file di configurazione di Prometheus come segue. L’output deve essere simile al seguente, con tre strumenti di esportazione configurati con gli indirizzi IP dei nodi di calcolo corretti.

   ```
   $ cat /etc/prometheus/prometheus.yml
   global:
     scrape_interval: 15s
     evaluation_interval: 15s
     scrape_timeout: 15s
   
   scrape_configs:
     - job_name: 'slurm_exporter'
       static_configs:
         - targets:
             - 'localhost:8080'
     - job_name: 'dcgm_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9400'
             - '<ComputeNodeIP>:9400'
     - job_name: 'efa_node_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9100'
             - '<ComputeNodeIP>:9100'
   
   remote_write:
     - url: <AMPReoteWriteURL>
       queue_config:
         max_samples_per_send: 1000
         max_shards: 200
         capacity: 2500
       sigv4:
         region: <Region>
   ```

1. Per verificare se Prometheus sta esportando correttamente le metriche Slurm, DCGM ed EFA, esegui questo comando `curl` per Prometheus sulla porta `:9090` sul nodo head.

   ```
   $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
   ```

   Con le metriche esportate nello spazio di lavoro Servizio gestito da Amazon per Prometheus tramite la configurazione della scrittura remota di Prometheus dal nodo controller, puoi passare all’argomento successivo per configurare le dashboard di Grafana gestito da Amazon per visualizzare le metriche.