Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Risoluzione dei problemi di riavvio di Slurm nei PCS AWS
Quando riscontri problemi di riavvio del nodo, controlla innanzitutto lo stato del nodo utilizzando. scontrol
show node Quindi esamina CloudWatch i log di Slurm (slurmctld e slurmd) e i log di sistema per identificare potenziali errori.nodename
Per la risoluzione dei problemi di base, verifica la connettività di rete, controlla le impostazioni del gruppo di sicurezza e assicurati che tutti i servizi richiesti siano in esecuzione dopo il riavvio. Se i problemi persistono dopo i passaggi di base per la risoluzione dei problemi, contatta l' AWS assistenza. Quando contattate l'assistenza, fornite gli estratti dei log pertinenti, le informazioni sullo stato del nodo e una cronologia del tentativo di riavvio per velocizzare il processo di risoluzione.
Risorse aggiuntive
-
Per il monitoraggio delle istanze AWS PCS tramite Amazon CloudWatch, consulta Monitoraggio delle istanze AWS PCS tramite Amazon. CloudWatch
-
Per una risoluzione generale dei problemi, consulta. Risoluzione dei problemi in Parallel Computing AWS Service
-
Per la documentazione su Slurm, consulta la Guida alla risoluzione dei problemi di Slurm
.