Risoluzione dei problemi di riavvio di Slurm nei PCS AWS - AWS PC

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Risoluzione dei problemi di riavvio di Slurm nei PCS AWS

Quando riscontri problemi di riavvio del nodo, controlla innanzitutto lo stato del nodo utilizzando. scontrol show node nodename Quindi esamina CloudWatch i log di Slurm (slurmctld e slurmd) e i log di sistema per identificare potenziali errori.

Per la risoluzione dei problemi di base, verifica la connettività di rete, controlla le impostazioni del gruppo di sicurezza e assicurati che tutti i servizi richiesti siano in esecuzione dopo il riavvio. Se i problemi persistono dopo i passaggi di base per la risoluzione dei problemi, contatta l' AWS assistenza. Quando contattate l'assistenza, fornite gli estratti dei log pertinenti, le informazioni sullo stato del nodo e una cronologia del tentativo di riavvio per velocizzare il processo di risoluzione.

Risorse aggiuntive