Reboot node komputasi menggunakan Slurm di PCS AWS - AWS PCS

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Reboot node komputasi menggunakan Slurm di PCS AWS

Gunakan perintah reboot asli Slurm untuk menyelesaikan masalah kinerja, menghapus masalah sumber daya, atau memulihkan dari status terdegradasi tanpa kehilangan kapasitas instans EC2.

Prasyarat

  • Hak istimewa Admin Slurm (akses pengguna root)

  • Akses ke node login di cluster AWS PCS

Prosedur

  1. Connect ke node login melalui konsol EC2.

    1. Di konsol EC2, pilih Instans.

    2. Pilih instance node login Anda.

    3. Pilih Hubungkan.

  2. Identifikasi nama node komputasi target menggunakan sinfo atauscontrol show node.

    sinfo # or scontrol show node
  3. Jalankan perintah reboot menggunakan salah satu opsi ini:

    Awas

    Jangan gunakan nextstate=DOWN dengan scontrol reboot perintah. Parameter ini menandai node sebagai tidak sehat dan memicu penggantian instance.

    • Reboot dasar (menunggu node menjadi idle):

      scontrol reboot nodename
    • Reboot segera (menguras node dan reboot saat pekerjaan selesai):

      scontrol reboot ASAP nodename
    • Reboot dengan alasan:

      scontrol reboot ASAP reason="troubleshooting" nodename
    • Reboot dengan status resume:

      scontrol reboot ASAP nextstate=RESUME nodename
  4. Pantau kemajuan reboot menggunakanscontrol show node.

    scontrol show node nodename
  5. Verifikasi node kembali ke layanan setelah reboot selesai.