

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Preguntas frecuentes sobre el reinicio de Slurm en PCS AWS
<a name="slurm-reboot-faq"></a>

Encuentre respuestas a preguntas frecuentes sobre el uso del reinicio de Slurm en PCS. AWS 

**¿Qué es la compatibilidad con el reinicio de Slurm?**  
Support para el comando nativo Slurm. `scontrol reboot` Utilice este comando para reiniciar los nodos de procesamiento sin reemplazar automáticamente las instancias, lo que preserva la capacidad de la instancia EC2 y reduce los costos operativos.

**¿Quién puede usar los comandos de reinicio de Slurm?**  
Solo los usuarios de Slurm Admin (usuarios root) pueden ejecutar los comandos de reinicio. Los usuarios habituales que intenten utilizarlos `scontrol reboot` recibirán un error de permiso denegado por parte de Slurm sin que ello afecte al nodo.

**¿Qué ocurre con los trabajos en ejecución durante un reinicio?**  
De forma predeterminada, los trabajos se completan normalmente antes de que se reinicie. Con la opción ASAP, el nodo se vacía para evitar nuevos trabajos y el reinicio se produce una vez finalizados los trabajos actuales. Los trabajos se pueden cancelar o volver a poner en cola para reiniciarse inmediatamente.

**¿En qué se diferencia esto del reinicio de la consola EC2?**  
El reinicio mediante Slurm preserva la instancia EC2 y evita su sustitución, mientras que al reiniciar la consola EC2, el PCS reemplaza la instancia debido a que no se realizaron comprobaciones de estado durante el proceso de reinicio.

**¿Puedo configurar scripts de reinicio personalizados?**  
No, RebootProgram la configuración no se admite en la versión inicial. La función utiliza el comportamiento de reinicio estándar de Slurm sin compatibilidad con scripts personalizados.

**¿Cuánto tarda un reinicio de Slurm?**  
El tiempo de reinicio varía según el tipo de instancia, los procesos de arranque del cliente, la configuración de la AMI y si los trabajos deben completarse primero. El proceso incluye esperar a que se completen los trabajos, el reinicio físico, las comprobaciones de estado y el registro del daemon slurmd.

**¿Puedo ver un historial de reinicios?**  
Los eventos de reinicio se registran en los registros de Slurm (slurmctld y slurmd), que se pueden monitorear. CloudWatch El campo de motivo en el estado del nodo muestra el motivo del reinicio durante el proceso.

**¿Qué pasa si un nodo se atasca durante el reinicio?**  
Si un nodo no completa el proceso de reinicio dentro de él ResumeTimeout, se marcará como INACTIVO. Compruebe si hay errores en los CloudWatch registros, compruebe la conectividad de la red y examine los registros slurmd. Póngase en contacto con AWS Support si los problemas persisten.

**¿Puedo reiniciar varios nodos a la vez?**  
Sí, puede especificar varios nodos en el comando reboot:  

```
scontrol reboot ASAP node1,node2,node3
```

**¿Cómo puedo reiniciar un nodo sin esperar a que se completen las tareas?**  
Tienes dos opciones para que los nodos se reinicien inmediatamente cuando surjan problemas, como nodos problemáticos que afecten a tareas de varios nodos, una degradación significativa del rendimiento o un comportamiento inestable de la GPU:  
+ **Cancelar y reiniciar**: primero, cancele los trabajos afectados utilizando y, a continuación`scancel <job_id>`, inicie un reinicio inmediato utilizando. `scontrol reboot ASAP <nodename>` Los trabajos en ejecución finalizarán y deberán volver a enviarse una vez que el nodo se recupere.
+ **Drenar y volver a poner en cola (con menos impacto)**: comience por iniciar un vaciado y reinicie con`scontrol reboot ASAP <nodename>`, a continuación, vuelva a poner en cola los trabajos afectados utilizando. `scontrol requeue <job_id>` Esto vuelve a poner los trabajos en estado pendiente en lugar de cancelarlos.

**¿Qué ocurre si especifico nextState=DOWN?**  
Si lo especificas`nextstate=DOWN`, el nodo se marcará como en mal estado tras el reinicio y se activará la sustitución de la instancia. Para evitar el reemplazo de la instancia, no especifiques el estado o el uso `nextstate=RESUME` del siguiente.

## Recursos adicionales
<a name="slurm-reboot-faq-additional-resources"></a>
+ Para obtener información sobre los procedimientos básicos de reinicio, consulte[Reinicie un nodo de cómputo mediante Slurm en PCS AWS](slurm-reboot-procedure.md).
+ Para solucionar problemas de reinicio, consulte[Solución de problemas de reinicio de Slurm en PCS AWS](slurm-reboot-troubleshooting.md).
+ Para ver la documentación sobre el reinicio de Slurm, consulte la documentación de [Slurm scontrol](https://slurm.schedmd.com/scontrol.html#OPT_reboot).