Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Reiniciar los nodos de cómputo con Slurm en PCS AWS
AWS PCS admite el comando nativo de Slurm. scontrol reboot Utilice este comando para reiniciar los nodos de procesamiento sin reemplazar la instancia EC2. Otros métodos de reinicio (consola Amazon EC2 AWS CLI, parches automatizados o mantenimiento del sistema) hacen que el AWS PCS considere que la instancia EC2 está en mal estado y la sustituya.
Ventajas del reinicio de Slurm
El reinicio de Slurm ofrece varias ventajas para el mantenimiento del clúster:
-
Conserve la capacidad: evite perder instancias EC2 con capacidad limitada a manos de otros clientes.
-
Reduzca los costos: elimine los ciclos innecesarios de reemplazo de instancias y la facturación continua de los nodos inactivos.
-
Recuperación más rápida: sin demoras en el aprovisionamiento en comparación con la sustitución de instancias.
-
Flexibilidad operativa: elimine las pérdidas de memoria, elimine los archivos temporales y recupere los nodos de estados degradados.
Cuándo usar el reinicio de Slurm
Utilice el reinicio de Slurm para los escenarios comunes de mantenimiento operativo:
-
Solución de problemas: resuelva los problemas de rendimiento o los procesos que no responden, especialmente en los nodos de la GPU.
-
Limpieza de recursos: elimine las pérdidas de memoria, los archivos temporales o los
/tmpprocesos atascados que afectan al rendimiento laboral. -
Recuperación: recupere los nodos de estados bloqueados o degradados antes de tener que reemplazarlos por completo.
Limitaciones
-
Solo los usuarios de Slurm Admin (usuarios root) pueden ejecutar comandos de reinicio.
-
El soporte de reinicio está limitado a solo.
scontrol reboot -
RebootProgram no se admite la configuración.
-
Sin interfaz de consola, solo desde la línea de comandos.