

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Validación de la configuración de Prometheus en el nodo principal de un clúster HyperPod
<a name="sagemaker-hyperpod-cluster-observability-slurm-validate-prometheus-setup"></a>

Una vez que haya configurado correctamente el HyperPod clúster instalado con los paquetes de exportación, compruebe si Prometheus está correctamente configurado en el nodo principal del clúster. HyperPod 

1. Conecte con el nodo principal del clúster. Para obtener instrucciones sobre cómo acceder a un nodo, consulte [Acceder a los nodos SageMaker HyperPod de su clúster](sagemaker-hyperpod-run-jobs-slurm-access-nodes.md).

1. Ejecute el siguiente comando para comprobar que el archivo de configuración y servicio de Prometheus creado por el script de ciclo de vida `install_prometheus.sh` se esté ejecutando en el nodo de controlador. El resultado debería mostrar el estado Activo como **active (running)**.

   ```
   $ sudo systemctl status prometheus
   • prometheus service - Prometheus Exporter
   Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled)
   Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago
   Main PID: 12345 (prometheus)
   Tasks: 7 (limit: 9281)
   Memory: 35M
   CPU: 234ms
   CGroup: /system.slice/prometheus.service
           -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
   ```

1. Valide el archivo de configuración de Prometheus de la siguiente manera. El resultado debe ser similar al siguiente, con tres exportadores configurados con las direcciones IP de los nodos de computación correctas.

   ```
   $ cat /etc/prometheus/prometheus.yml
   global:
     scrape_interval: 15s
     evaluation_interval: 15s
     scrape_timeout: 15s
   
   scrape_configs:
     - job_name: 'slurm_exporter'
       static_configs:
         - targets:
             - 'localhost:8080'
     - job_name: 'dcgm_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9400'
             - '<ComputeNodeIP>:9400'
     - job_name: 'efa_node_exporter'
       static_configs:
         - targets:
             - '<ComputeNodeIP>:9100'
             - '<ComputeNodeIP>:9100'
   
   remote_write:
     - url: <AMPReoteWriteURL>
       queue_config:
         max_samples_per_send: 1000
         max_shards: 200
         capacity: 2500
       sigv4:
         region: <Region>
   ```

1. Para comprobar si Prometheus está exportando correctamente las métricas de Slurm, DCGM y EFA, ejecute el siguiente comando `curl` para Prometheus en el puerto `:9090` del nodo principal.

   ```
   $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
   ```

   Con las métricas exportadas al espacio de trabajo de Amazon Managed Service para Prometheus a través de la configuración de escritura remota de Prometheus desde el nodo de controlador, puede continuar con el siguiente tema para configurar los paneles de Amazon Managed Grafana para mostrar las métricas.