Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Slurm reboot pertanyaan yang sering diajukan di PCS AWS
Temukan jawaban atas pertanyaan umum tentang penggunaan reboot Slurm di AWS PCS.
- Apa itu dukungan reboot slurm?
-
Support untuk perintah Slurm
scontrol rebootasli. Gunakan perintah ini untuk me-reboot node komputasi tanpa penggantian instans otomatis, yang mempertahankan kapasitas instans EC2 dan mengurangi biaya operasional. - Siapa yang dapat menggunakan perintah reboot Slurm?
-
Hanya pengguna Slurm Admin (pengguna root) yang dapat menjalankan perintah reboot. Pengguna biasa yang mencoba menggunakan
scontrol rebootakan menerima kesalahan izin ditolak dari Slurm tanpa mempengaruhi node. - Apa yang terjadi dengan menjalankan pekerjaan selama reboot?
-
Secara default, pekerjaan selesai secara normal sebelum reboot terjadi. Dengan opsi ASAP, node dikeringkan untuk mencegah pekerjaan baru, dan reboot terjadi setelah pekerjaan saat ini selesai. Pekerjaan dapat dibatalkan atau diminta untuk reboot segera.
- Apa bedanya dengan reboot konsol EC2?
-
Slurm reboot mempertahankan instans EC2 dan menghindari penggantian, sementara reboot konsol EC2 memicu PCS untuk mengganti instance karena pemeriksaan kesehatan yang gagal selama proses reboot.
- Bisakah saya mengonfigurasi skrip reboot khusus?
-
Tidak, RebootProgram konfigurasi tidak didukung dalam rilis awal. Fitur ini menggunakan perilaku reboot Slurm standar tanpa dukungan skrip khusus.
- Berapa lama waktu yang dibutuhkan reboot slurm?
-
Waktu reboot bervariasi berdasarkan jenis instans, proses boot pelanggan, konfigurasi AMI, dan apakah pekerjaan perlu diselesaikan terlebih dahulu. Prosesnya termasuk menunggu pekerjaan selesai, reboot fisik, pemeriksaan kesehatan, dan pendaftaran daemon slurmd.
- Bisakah saya melihat sejarah reboot?
-
Peristiwa reboot direkam dalam log Slurm (slurmctld dan slurmd) yang dapat dipantau melalui. CloudWatch Bidang alasan dalam status node menunjukkan alasan reboot selama proses berlangsung.
- Bagaimana jika sebuah node macet saat reboot?
-
Jika sebuah node tidak menyelesaikan proses reboot di dalamnya ResumeTimeout, itu akan ditandai sebagai DOWN. Periksa CloudWatch log untuk kesalahan, verifikasi konektivitas jaringan, dan periksa log slurmd. Hubungi AWS Support jika masalah terus berlanjut.
- Bisakah saya me-reboot beberapa node sekaligus?
-
Ya, Anda dapat menentukan beberapa node dalam perintah reboot:
scontrol reboot ASAP node1,node2,node3 - Bagaimana saya bisa me-reboot node tanpa menunggu pekerjaan selesai?
-
Untuk reboot node langsung saat menghadapi masalah seperti node bermasalah yang memengaruhi pekerjaan multi-node, penurunan kinerja yang signifikan, atau perilaku GPU yang tidak stabil, Anda memiliki dua opsi:
-
Batalkan dan Reboot — Pertama, batalkan pekerjaan yang terpengaruh menggunakan
scancel <job_id>, lalu memulai reboot langsung menggunakanscontrol reboot ASAP <nodename>. Pekerjaan yang sedang berjalan akan dihentikan dan perlu dikirimkan kembali setelah node pulih. -
Drain dan Requeue (kurang berdampak) - Mulailah dengan memulai drain dan reboot dengan
scontrol reboot ASAP <nodename>, lalu requeue pekerjaan yang terpengaruh menggunakan.scontrol requeue <job_id>Ini menempatkan pekerjaan kembali ke status tertunda alih-alih membatalkannya.
-
- Apa yang terjadi jika saya menentukan nextState=down?
-
Jika Anda menentukan
nextstate=DOWN, node akan ditandai sebagai tidak sehat setelah reboot dan memicu penggantian instance. Untuk menghindari penggantian instance, jangan tentukan nextstate atau gunakan.nextstate=RESUME
Sumber daya tambahan
-
Untuk prosedur reboot dasar, lihatReboot node komputasi menggunakan Slurm di PCS AWS.
-
Untuk mengatasi masalah reboot, lihat. Memecahkan masalah reboot Slurm di PCS AWS
-
Untuk dokumentasi reboot Slurm, lihat Dokumentasi Slurm
scontrol.