Reboot node komputasi menggunakan Slurm di PCS AWS

Gunakan perintah reboot asli Slurm untuk menyelesaikan masalah kinerja, menghapus masalah sumber daya, atau memulihkan dari status terdegradasi tanpa kehilangan kapasitas instans EC2.

Prasyarat

Hak istimewa Admin Slurm (akses pengguna root)
Akses ke node login di cluster AWS PCS

Prosedur

Connect ke node login melalui konsol EC2.
1. Di konsol EC2, pilih Instans.
2. Pilih instance node login Anda.
3. Pilih Hubungkan.
Identifikasi nama node komputasi target menggunakan sinfo atauscontrol show node.
```
sinfo
# or
scontrol show node
```
Jalankan perintah reboot menggunakan salah satu opsi ini:

Awas
Jangan gunakan nextstate=DOWN dengan scontrol reboot perintah. Parameter ini menandai node sebagai tidak sehat dan memicu penggantian instance.
- Reboot dasar (menunggu node menjadi idle):
```
scontrol reboot nodename
```
- Reboot segera (menguras node dan reboot saat pekerjaan selesai):
```
scontrol reboot ASAP nodename
```
- Reboot dengan alasan:
```
scontrol reboot ASAP reason="troubleshooting" nodename
```
- Reboot dengan status resume:
```
scontrol reboot ASAP nextstate=RESUME nodename
```
Pantau kemajuan reboot menggunakanscontrol show node.
```
scontrol show node nodename
```
Verifikasi node kembali ke layanan setelah reboot selesai.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Slurm reboot

Batalkan reboot