Slurm reboot pertanyaan yang sering diajukan di PCS AWS - AWS PCS

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Slurm reboot pertanyaan yang sering diajukan di PCS AWS

Temukan jawaban atas pertanyaan umum tentang penggunaan reboot Slurm di AWS PCS.

Apa itu dukungan reboot slurm?

Support untuk perintah Slurm scontrol reboot asli. Gunakan perintah ini untuk me-reboot node komputasi tanpa penggantian instans otomatis, yang mempertahankan kapasitas instans EC2 dan mengurangi biaya operasional.

Siapa yang dapat menggunakan perintah reboot Slurm?

Hanya pengguna Slurm Admin (pengguna root) yang dapat menjalankan perintah reboot. Pengguna biasa yang mencoba menggunakan scontrol reboot akan menerima kesalahan izin ditolak dari Slurm tanpa mempengaruhi node.

Apa yang terjadi dengan menjalankan pekerjaan selama reboot?

Secara default, pekerjaan selesai secara normal sebelum reboot terjadi. Dengan opsi ASAP, node dikeringkan untuk mencegah pekerjaan baru, dan reboot terjadi setelah pekerjaan saat ini selesai. Pekerjaan dapat dibatalkan atau diminta untuk reboot segera.

Apa bedanya dengan reboot konsol EC2?

Slurm reboot mempertahankan instans EC2 dan menghindari penggantian, sementara reboot konsol EC2 memicu PCS untuk mengganti instance karena pemeriksaan kesehatan yang gagal selama proses reboot.

Bisakah saya mengonfigurasi skrip reboot khusus?

Tidak, RebootProgram konfigurasi tidak didukung dalam rilis awal. Fitur ini menggunakan perilaku reboot Slurm standar tanpa dukungan skrip khusus.

Berapa lama waktu yang dibutuhkan reboot slurm?

Waktu reboot bervariasi berdasarkan jenis instans, proses boot pelanggan, konfigurasi AMI, dan apakah pekerjaan perlu diselesaikan terlebih dahulu. Prosesnya termasuk menunggu pekerjaan selesai, reboot fisik, pemeriksaan kesehatan, dan pendaftaran daemon slurmd.

Bisakah saya melihat sejarah reboot?

Peristiwa reboot direkam dalam log Slurm (slurmctld dan slurmd) yang dapat dipantau melalui. CloudWatch Bidang alasan dalam status node menunjukkan alasan reboot selama proses berlangsung.

Bagaimana jika sebuah node macet saat reboot?

Jika sebuah node tidak menyelesaikan proses reboot di dalamnya ResumeTimeout, itu akan ditandai sebagai DOWN. Periksa CloudWatch log untuk kesalahan, verifikasi konektivitas jaringan, dan periksa log slurmd. Hubungi AWS Support jika masalah terus berlanjut.

Bisakah saya me-reboot beberapa node sekaligus?

Ya, Anda dapat menentukan beberapa node dalam perintah reboot:

scontrol reboot ASAP node1,node2,node3
Bagaimana saya bisa me-reboot node tanpa menunggu pekerjaan selesai?

Untuk reboot node langsung saat menghadapi masalah seperti node bermasalah yang memengaruhi pekerjaan multi-node, penurunan kinerja yang signifikan, atau perilaku GPU yang tidak stabil, Anda memiliki dua opsi:

  • Batalkan dan Reboot — Pertama, batalkan pekerjaan yang terpengaruh menggunakanscancel <job_id>, lalu memulai reboot langsung menggunakanscontrol reboot ASAP <nodename>. Pekerjaan yang sedang berjalan akan dihentikan dan perlu dikirimkan kembali setelah node pulih.

  • Drain dan Requeue (kurang berdampak) - Mulailah dengan memulai drain dan reboot denganscontrol reboot ASAP <nodename>, lalu requeue pekerjaan yang terpengaruh menggunakan. scontrol requeue <job_id> Ini menempatkan pekerjaan kembali ke status tertunda alih-alih membatalkannya.

Apa yang terjadi jika saya menentukan nextState=down?

Jika Anda menentukannextstate=DOWN, node akan ditandai sebagai tidak sehat setelah reboot dan memicu penggantian instance. Untuk menghindari penggantian instance, jangan tentukan nextstate atau gunakan. nextstate=RESUME

Sumber daya tambahan