Tata kelola tugas untuk Ruang Interaktif di HyperPod - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Tata kelola tugas untuk Ruang Interaktif di HyperPod

Bagian ini mencakup cara mengoptimalkan kluster Amazon SageMaker HyperPod EKS bersama Anda untuk beban kerja Ruang Interaktif. Anda akan belajar mengonfigurasi fitur tata kelola tugas Kueue — termasuk manajemen kuota, penjadwalan prioritas, dan kebijakan berbagi sumber daya — untuk memastikan beban kerja pengembangan Anda berjalan tanpa gangguan sambil mempertahankan alokasi yang adil di seluruh pelatihan, evaluasi, dan aktivitas pemrosesan batch tim Anda.

Cara kerja manajemen Ruang Interaktif

Untuk mengelola Ruang Interaktif secara efektif dalam kluster HyperPod EKS bersama, terapkan strategi tata kelola tugas berikut menggunakan kemampuan Kueue yang ada.

Konfigurasi kelas prioritas

Tentukan kelas prioritas khusus untuk Ruang Interaktif dengan bobot tinggi (seperti 100) untuk memastikan pod pengembangan diterima dan dijadwalkan sebelum jenis tugas lainnya. Konfigurasi ini memungkinkan Ruang Interaktif untuk mendahului pekerjaan dengan prioritas lebih rendah selama pemuatan klaster, yang sangat penting untuk mempertahankan alur kerja pengembangan yang tidak terganggu.

Ukuran dan alokasi kuota

Cadangan sumber daya komputasi yang cukup di tim Anda ClusterQueue untuk menangani beban kerja pengembangan yang diharapkan. Selama periode ketika sumber daya pengembangan tidak digunakan, sumber daya kuota yang tidak terpakai dapat dialokasikan sementara untuk tugas tim lain. Ketika permintaan pengembangan meningkat, sumber daya pinjaman ini dapat direklamasi untuk memprioritaskan pod Ruang Interaktif yang tertunda.

Strategi Berbagi Sumber Daya

Pilih di antara dua pendekatan pembagian kuota berdasarkan kebutuhan Anda:

Kontrol Sumber Daya yang Ketat: Nonaktifkan peminjaman kuota dan pinjaman untuk menjamin kapasitas komputasi cadangan selalu tersedia untuk Ruang Interaktif Anda. Pendekatan ini membutuhkan kuota ukuran yang cukup besar untuk secara independen menangani permintaan pengembangan puncak dan dapat mengakibatkan node idle selama periode penggunaan rendah.

Berbagi Sumber Daya yang Fleksibel: Aktifkan pinjaman kuota untuk memungkinkan tim lain memanfaatkan sumber daya pengembangan idle saat diperlukan. Namun, nonaktifkan pinjaman untuk memastikan Ruang Interaktif tidak pernah berjalan pada sumber daya yang dipinjam dan dapat direklamasi yang dapat menyebabkan penggusuran yang tidak terduga.

Preemption Intra Tim

Aktifkan preemption intra-tim saat menjalankan beban kerja campuran (pelatihan, evaluasi, dan Ruang Interaktif) di bawah kuota yang sama. Hal ini memungkinkan Kueue untuk mendahului pekerjaan dengan prioritas lebih rendah dalam tim Anda untuk mengakomodasi pod Ruang Interaktif prioritas tinggi, memastikan pekerjaan pengembangan dapat dilanjutkan tanpa bergantung pada pinjaman kuota eksternal.

Contoh pengaturan Ruang Interaktif

Contoh berikut menunjukkan bagaimana Kueue mengelola sumber daya komputasi untuk Ruang Interaktif di klaster Amazon bersama. SageMaker HyperPod

Konfigurasi klaster dan pengaturan kebijakan

Cluster Anda memiliki konfigurasi berikut:

  • Tim Alpha (Tim Pengembang): 8 kuota CPU untuk Ruang Interaktif

  • Tim Beta (Tim ML): 16 kuota CPU untuk pelatihan dan evaluasi

  • Tim Gamma (Penelitian): 6 kuota CPU untuk eksperimen

  • Penyediaan statis: Tidak ada penskalaan otomatis

  • Kapasitas total: 30 CPUs

Kumpulan CPU bersama menggunakan kebijakan prioritas ini:

  • Ruang Interaktif: Prioritas 100

  • Pelatihan: Prioritas 75

  • Evaluasi: Prioritas 50

  • Pemrosesan Batch: Prioritas 25

Kueue memberlakukan kuota tim dan kelas prioritas, dengan preemption diaktifkan dan pinjaman dinonaktifkan untuk tim dev.

Keadaan awal: Pemanfaatan cluster normal

Dalam operasi normal:

  • Tim Alpha: Menjalankan 6 Ruang Interaktif menggunakan 6 CPUs, 2 CPUs idle

  • Tim Beta: Menjalankan pekerjaan pelatihan (12 CPUs) dan evaluasi (4 CPUs) dalam 16 kuota CPU

  • Team Gamma: Menjalankan beban kerja penelitian pada semua 6 CPUs

  • Berbagi sumber daya: Tim Beta meminjam 2 idle Tim Alpha CPUs untuk pelatihan tambahan

Lonjakan pengembangan: Tim Alpha membutuhkan sumber daya tambahan

Ketika pengembang Team Alpha perlu meningkatkan pekerjaan pengembangan, pod Interactive Space tambahan membutuhkan 4 pod lagi CPUs. Kueue mendeteksi bahwa pod baru adalah:

  • Di dalam namespace Tim Alpha

  • Prioritas 100 (Ruang Interaktif)

  • Penerimaan tertunda karena kendala kuota

Proses respon Kueue

Kueue mengikuti proses tiga langkah untuk mengalokasikan sumber daya:

  1. Cek kuota

    Pertanyaan: Apakah Team Alpha memiliki kuota yang tidak terpakai?

    • Penggunaan saat ini: 6 CPUs digunakan, 2 CPUs tersedia

    • Persyaratan baru: 4 CPUs dibutuhkan

    • Hasil: Kuota tidak mencukupi → Lanjutkan ke Langkah 2

  2. Preemption diri dalam Tim Alpha

    Pertanyaan: Bisakah pekerjaan Team Alpha dengan prioritas lebih rendah didahului?

    • Target yang tersedia: Tidak ada pekerjaan dengan prioritas lebih rendah di Team Alpha

    • Hasil: Tidak ada kemungkinan preemption → Lanjutkan ke Langkah 3

  3. Dapatkan kembali sumber daya pinjaman

    Pertanyaan: Apakah sumber daya Tim Alpha dipinjam oleh tim lain?

    • Sumber daya yang dipinjam: Tim Beta menggunakan 2 CPUs dari Tim Alpha

    • Tindakan: Kueue mengusir pod pelatihan pinjaman Tim Beta, membebaskan 2 CPUs

    • Kebutuhan yang tersisa: Masih membutuhkan 2 lagi CPUs → Ruang Interaktif tetap dalam NotAdmitted status sampai sumber daya tersedia

Pendekatan ini memprioritaskan Ruang Interaktif sambil mempertahankan batas kuota tim dan mencegah pekerjaan pengembangan berjalan pada sumber daya pinjaman yang tidak stabil.