Domande frequenti sul riavvio di Slurm in PCS AWS - AWS PC

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Domande frequenti sul riavvio di Slurm in PCS AWS

Trova le risposte alle domande più comuni sull'utilizzo di Slurm reboot in PCS. AWS

Cos'è il supporto per il riavvio di Slurm?

Support per il comando nativo Slurm. scontrol reboot Utilizza questo comando per riavviare i nodi di calcolo senza la sostituzione automatica delle istanze, in modo da preservare la capacità delle istanze EC2 e ridurre i costi operativi.

Chi può usare i comandi di riavvio di Slurm?

Solo gli utenti Slurm Admin (utenti root) possono eseguire i comandi di riavvio. Gli utenti normali che tentano di utilizzare scontrol reboot riceveranno un errore di autorizzazione negata da Slurm senza influire sul nodo.

Cosa succede ai job in esecuzione durante un riavvio?

Per impostazione predefinita, i processi vengono completati normalmente prima del riavvio. Con l'opzione ASAP, il nodo viene svuotato per evitare nuovi lavori e il riavvio avviene al termine dei processi correnti. I lavori possono essere annullati o richiesti per riavvii immediati.

In che modo è diverso dal riavvio della console EC2?

Slurm reboot preserva l'istanza EC2 ed evita la sostituzione, mentre la console EC2 riavvia il trigger NodeGroupManager per sostituire l'istanza a causa di controlli di integrità falliti durante il processo di riavvio.

Posso configurare script di riavvio personalizzati?

No, la RebootProgram configurazione non è supportata nella versione iniziale. La funzionalità utilizza il comportamento di riavvio standard di Slurm senza supporto di script personalizzati.

Quanto tempo richiede il riavvio di Slurm?

Il tempo di riavvio varia in base al tipo di istanza, ai processi di avvio del cliente, alla configurazione AMI e al fatto che i job debbano essere completati prima. Il processo include l'attesa del completamento dei lavori, il riavvio fisico, i controlli di integrità e la registrazione del demone slurmd.

Posso vedere una cronologia dei riavvii?

Gli eventi di riavvio vengono registrati nei log di Slurm (slurmctld e slurmd) che possono essere monitorati. CloudWatch Il campo motivo nello stato del nodo mostra il motivo del riavvio durante il processo.

Cosa succede se un nodo si blocca durante il riavvio?

Se un nodo non completa il processo di riavvio all'interno ResumeTimeout, verrà contrassegnato come DOWN. Controlla la presenza di errori CloudWatch nei log, verifica la connettività di rete ed esamina i log slurmd. Contatta l' AWS assistenza se il problema persiste.

Posso riavviare più nodi contemporaneamente?

Sì, puoi specificare più nodi nel comando reboot:

scontrol reboot ASAP node1,node2,node3
Come posso riavviare un nodo senza attendere il completamento dei processi?

Per il riavvio immediato dei nodi in caso di problemi quali nodi problematici che influiscono su processi multinodo, un significativo peggioramento delle prestazioni o un comportamento instabile della GPU, sono disponibili due opzioni:

  • Annulla e riavvia: innanzitutto, annulla i lavori interessati utilizzando, quindi avvia un riavvio immediato utilizzandoscancel <job_id>. scontrol reboot ASAP <nodename> I processi in esecuzione verranno interrotti e dovranno essere nuovamente inviati dopo il ripristino del nodo.

  • Drain and Requeue (meno impattante): inizia avviando un drenaggio e riavvia con, quindi richiedi i lavori interessati utilizzando. scontrol reboot ASAP <nodename> scontrol requeue <job_id> In questo modo i lavori tornano in sospeso invece di annullarli.

Cosa succede se specifico nextState=DOWN?

Se si specificanextstate=DOWN, il nodo verrà contrassegnato come non integro dopo il riavvio e attiverà la sostituzione dell'istanza. Per evitare la sostituzione dell'istanza, non specificare nextstate o use. nextstate=RESUME

Risorse aggiuntive