Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mem-boot ulang node komputasi dengan Slurm di PCS AWS
AWS PCS mendukung perintah asli scontrol reboot Slurm. Gunakan perintah ini untuk me-reboot node komputasi tanpa penggantian instans EC2. Metode reboot lainnya (konsol Amazon EC2, patch otomatis AWS CLI, atau pemeliharaan sistem) menyebabkan AWS PCS menganggap instans EC2 tidak sehat dan menggantinya.
Manfaat reboot Slurm
Slurm reboot memberikan beberapa keuntungan untuk pemeliharaan cluster:
-
Pertahankan kapasitas — Hindari kehilangan instans EC2 yang dibatasi kapasitas ke pelanggan lain.
-
Mengurangi biaya — Hilangkan siklus penggantian instans yang tidak perlu dan penagihan lanjutan untuk node idle.
-
Pemulihan lebih cepat - Tidak ada penundaan penyediaan dibandingkan dengan penggantian instance.
-
Fleksibilitas operasional — Hapus kebocoran memori, hapus file sementara, dan pulihkan node dari status terdegradasi.
Kapan menggunakan reboot Slurm
Gunakan reboot Slurm untuk skenario pemeliharaan operasional umum:
-
Pemecahan masalah — Mengatasi masalah kinerja atau proses yang tidak responsif, terutama untuk node GPU.
-
Pembersihan sumber daya — Hapus kebocoran memori, file sementara
/tmp, atau proses macet yang memengaruhi kinerja pekerjaan. -
Pemulihan — Memulihkan node dari status hang atau terdegradasi sebelum membutuhkan penggantian node penuh.
Batasan
-
Hanya pengguna Slurm Admin (pengguna root) yang dapat menjalankan perintah reboot.
-
Dukungan reboot terbatas
scontrol reboothanya. -
RebootProgram konfigurasi tidak didukung.
-
Tidak ada antarmuka konsol — hanya baris perintah.