Preguntas frecuentes sobre el reinicio de Slurm en PCS AWS - AWS PCS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Preguntas frecuentes sobre el reinicio de Slurm en PCS AWS

Encuentre respuestas a preguntas frecuentes sobre el uso del reinicio de Slurm en PCS. AWS

¿Qué es la compatibilidad con el reinicio de Slurm?

Support para el comando Slurm scontrol reboot nativo. Utilice este comando para reiniciar los nodos de procesamiento sin reemplazar automáticamente las instancias, lo que preserva la capacidad de la instancia EC2 y reduce los costos operativos.

¿Quién puede usar los comandos de reinicio de Slurm?

Solo los usuarios de Slurm Admin (usuarios root) pueden ejecutar los comandos de reinicio. Los usuarios habituales que intenten utilizarlos scontrol reboot recibirán un error de permiso denegado por parte de Slurm sin que ello afecte al nodo.

¿Qué ocurre con los trabajos en ejecución durante un reinicio?

De forma predeterminada, los trabajos se completan normalmente antes de que se reinicie. Con la opción ASAP, el nodo se vacía para evitar nuevos trabajos y el reinicio se produce una vez finalizados los trabajos actuales. Los trabajos se pueden cancelar o volver a poner en cola para reiniciarse inmediatamente.

¿En qué se diferencia esto del reinicio de la consola EC2?

El reinicio mediante Slurm preserva la instancia EC2 y evita su sustitución, mientras que al reiniciar la consola EC2, el PCS reemplaza la instancia debido a que las comprobaciones de estado no se realizaron correctamente durante el proceso de reinicio.

¿Puedo configurar scripts de reinicio personalizados?

No, RebootProgram la configuración no se admite en la versión inicial. La función utiliza el comportamiento de reinicio estándar de Slurm sin compatibilidad con scripts personalizados.

¿Cuánto tarda un reinicio de Slurm?

El tiempo de reinicio varía según el tipo de instancia, los procesos de arranque del cliente, la configuración de la AMI y si los trabajos deben completarse primero. El proceso incluye esperar a que se completen los trabajos, el reinicio físico, las comprobaciones de estado y el registro del daemon slurmd.

¿Puedo ver un historial de reinicios?

Los eventos de reinicio se registran en los registros de Slurm (slurmctld y slurmd), que se pueden monitorear. CloudWatch El campo de motivo en el estado del nodo muestra el motivo del reinicio durante el proceso.

¿Qué pasa si un nodo se atasca durante el reinicio?

Si un nodo no completa el proceso de reinicio dentro de él ResumeTimeout, se marcará como INACTIVO. Compruebe si hay errores en los CloudWatch registros, compruebe la conectividad de la red y examine los registros slurmd. Póngase en contacto con AWS Support si los problemas persisten.

¿Puedo reiniciar varios nodos a la vez?

Sí, puede especificar varios nodos en el comando reboot:

scontrol reboot ASAP node1,node2,node3
¿Cómo puedo reiniciar un nodo sin esperar a que se completen las tareas?

Tienes dos opciones para que los nodos se reinicien inmediatamente cuando surjan problemas, como nodos problemáticos que afecten a tareas de varios nodos, una degradación significativa del rendimiento o un comportamiento inestable de la GPU:

  • Cancelar y reiniciar: primero, cancele los trabajos afectados utilizando y, a continuaciónscancel <job_id>, inicie un reinicio inmediato utilizando. scontrol reboot ASAP <nodename> Los trabajos en ejecución finalizarán y deberán volver a enviarse una vez que el nodo se recupere.

  • Drenar y volver a poner en cola (con menos impacto): comience por iniciar un vaciado y reinicie conscontrol reboot ASAP <nodename>, a continuación, vuelva a poner en cola los trabajos afectados utilizando. scontrol requeue <job_id> Esto vuelve a poner los trabajos en estado pendiente en lugar de cancelarlos.

¿Qué ocurre si especifico nextState=DOWN?

Si lo especificasnextstate=DOWN, el nodo se marcará como en mal estado tras el reinicio y se activará la sustitución de la instancia. Para evitar el reemplazo de la instancia, no especifiques el estado o el uso nextstate=RESUME del siguiente.

Recursos adicionales