Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Domande frequenti sul riavvio di Slurm in PCS AWS
Trova le risposte alle domande più comuni sull'utilizzo di Slurm reboot in PCS. AWS
- Cos'è il supporto per il riavvio di Slurm?
-
Support per il comando nativo Slurm.
scontrol rebootUtilizza questo comando per riavviare i nodi di calcolo senza la sostituzione automatica delle istanze, in modo da preservare la capacità delle istanze EC2 e ridurre i costi operativi. - Chi può usare i comandi di riavvio di Slurm?
-
Solo gli utenti Slurm Admin (utenti root) possono eseguire i comandi di riavvio. Gli utenti normali che tentano di utilizzare
scontrol rebootriceveranno un errore di autorizzazione negata da Slurm senza influire sul nodo. - Cosa succede ai job in esecuzione durante un riavvio?
-
Per impostazione predefinita, i processi vengono completati normalmente prima del riavvio. Con l'opzione ASAP, il nodo viene svuotato per evitare nuovi lavori e il riavvio avviene al termine dei processi correnti. I lavori possono essere annullati o richiesti per riavvii immediati.
- In che modo è diverso dal riavvio della console EC2?
-
Slurm reboot preserva l'istanza EC2 ed evita la sostituzione, mentre la console EC2 riavvia il trigger NodeGroupManager per sostituire l'istanza a causa di controlli di integrità falliti durante il processo di riavvio.
- Posso configurare script di riavvio personalizzati?
-
No, la RebootProgram configurazione non è supportata nella versione iniziale. La funzionalità utilizza il comportamento di riavvio standard di Slurm senza supporto di script personalizzati.
- Quanto tempo richiede il riavvio di Slurm?
-
Il tempo di riavvio varia in base al tipo di istanza, ai processi di avvio del cliente, alla configurazione AMI e al fatto che i job debbano essere completati prima. Il processo include l'attesa del completamento dei lavori, il riavvio fisico, i controlli di integrità e la registrazione del demone slurmd.
- Posso vedere una cronologia dei riavvii?
-
Gli eventi di riavvio vengono registrati nei log di Slurm (slurmctld e slurmd) che possono essere monitorati. CloudWatch Il campo motivo nello stato del nodo mostra il motivo del riavvio durante il processo.
- Cosa succede se un nodo si blocca durante il riavvio?
-
Se un nodo non completa il processo di riavvio all'interno ResumeTimeout, verrà contrassegnato come DOWN. Controlla la presenza di errori CloudWatch nei log, verifica la connettività di rete ed esamina i log slurmd. Contatta l' AWS assistenza se il problema persiste.
- Posso riavviare più nodi contemporaneamente?
-
Sì, puoi specificare più nodi nel comando reboot:
scontrol reboot ASAP node1,node2,node3 - Come posso riavviare un nodo senza attendere il completamento dei processi?
-
Per il riavvio immediato dei nodi in caso di problemi quali nodi problematici che influiscono su processi multinodo, un significativo peggioramento delle prestazioni o un comportamento instabile della GPU, sono disponibili due opzioni:
-
Annulla e riavvia: innanzitutto, annulla i lavori interessati utilizzando, quindi avvia un riavvio immediato utilizzando
scancel <job_id>.scontrol reboot ASAP <nodename>I processi in esecuzione verranno interrotti e dovranno essere nuovamente inviati dopo il ripristino del nodo. -
Drain and Requeue (meno impattante): inizia avviando un drenaggio e riavvia con, quindi richiedi i lavori interessati utilizzando.
scontrol reboot ASAP <nodename>scontrol requeue <job_id>In questo modo i lavori tornano in sospeso invece di annullarli.
-
- Cosa succede se specifico nextState=DOWN?
-
Se si specifica
nextstate=DOWN, il nodo verrà contrassegnato come non integro dopo il riavvio e attiverà la sostituzione dell'istanza. Per evitare la sostituzione dell'istanza, non specificare nextstate o use.nextstate=RESUME
Risorse aggiuntive
-
Per le procedure di riavvio di base, vedere. Riavvia un nodo di elaborazione utilizzando Slurm in PCS AWS
-
Per la risoluzione dei problemi di riavvio, vedere. Risoluzione dei problemi di riavvio di Slurm nei PCS AWS
-
Per la documentazione sul riavvio di Slurm, consulta la documentazione di Slurm scontrol.