Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Reboot node komputasi menggunakan Slurm di PCS AWS
Gunakan perintah reboot asli Slurm untuk menyelesaikan masalah kinerja, menghapus masalah sumber daya, atau memulihkan dari status terdegradasi tanpa kehilangan kapasitas instans EC2.
Prasyarat
-
Hak istimewa Admin Slurm (akses pengguna root)
-
Akses ke node login di cluster AWS PCS
Prosedur
-
Connect ke node login melalui konsol EC2.
-
Di konsol EC2, pilih Instans.
-
Pilih instance node login Anda.
-
Pilih Hubungkan.
-
-
Identifikasi nama node komputasi target menggunakan
sinfoatauscontrol show node.sinfo # or scontrol show node -
Jalankan perintah reboot menggunakan salah satu opsi ini:
Awas
Jangan gunakan
nextstate=DOWNdenganscontrol rebootperintah. Parameter ini menandai node sebagai tidak sehat dan memicu penggantian instance.-
Reboot dasar (menunggu node menjadi idle):
scontrol rebootnodename -
Reboot segera (menguras node dan reboot saat pekerjaan selesai):
scontrol reboot ASAPnodename -
Reboot dengan alasan:
scontrol reboot ASAP reason="troubleshooting"nodename -
Reboot dengan status resume:
scontrol reboot ASAP nextstate=RESUMEnodename
-
-
Pantau kemajuan reboot menggunakan
scontrol show node.scontrol show nodenodename -
Verifikasi node kembali ke layanan setelah reboot selesai.