Mengkonfigurasi pengaturan Slurm kustom di PCS AWS - AWS PCS

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengkonfigurasi pengaturan Slurm kustom di PCS AWS

Gunakan pengaturan Slurm khusus untuk mengonfigurasi parameter Slurm tambahan di seluruh sumber daya Cluster, Antrian, dan Grup Node Komputasi. Rilis ini menambahkan dukungan untuk pengaturan Slurm pada sumber daya Antrian, memberikan kontrol terperinci atas perilaku khusus partisi.

Manfaat pengaturan Slurm kustom

Pengaturan Slurm khusus memberikan kontrol canggih atas lingkungan AWS HPC berbasis PC Anda. Anda dapat menerapkan akuntansi terperinci, menegakkan kontrol akses, dan mengoptimalkan eksekusi beban kerja melalui quality-of-service konfigurasi dan kebijakan preemption. Kemampuan ini memastikan pekerjaan penting menerima sumber daya yang diperlukan sambil mempertahankan pemanfaatan cluster yang efisien. Baik Anda mengelola beban kerja yang dipercepat GPU, menerapkan penjadwalan pembagian yang adil, atau mengontrol siklus hidup pekerjaan, pengaturan khusus membantu menyelaraskan infrastruktur HPC Anda dengan persyaratan operasional dan tujuan penelitian.

Mengkonfigurasi pengaturan khusus

Pengaturan Slurm khusus dapat dikonfigurasi melalui AWS Konsol, CLI, atau SDKs selama pembuatan sumber daya atau dimodifikasi nanti melalui operasi pembaruan.

AWS Management Console

Arahkan ke pengaturan penjadwal tambahan di halaman buat atau edit untuk jenis sumber daya apa pun (cluster, antrian, atau grup node komputasi).

Untuk menambahkan pengaturan baru
  1. Pilih Tambahkan pengaturan baru.

  2. Pilih nama Parameter dari dropdown (yang mencakup deskripsi parameter singkat).

  3. Berikan nilai yang sesuai.

Untuk membatalkan setelan kustom
  1. Pilih Hapus di sebelah parameter/value pasangan yang relevan.

  2. Buat atau perbarui sumber daya.

AWS CLI

Untuk manajemen terprogram pengaturan kustom, gunakan SlurmCustomSettings bidang dalam membuat atau memperbarui operasi.

contoh — Memperbarui Prolog parameter pada cluster
aws pcs update-cluster --cluster-identifier my-cluster \ --slurm-configuration \ 'SlurmCustomSettings=[{parameterName=Prolog,parameterValue="/path/to/prolog.sh"}]'
contoh — Mengatur antrian untuk berada Default di cluster
aws pcs update-queue \ --cluster-identifier my-cluster \ --queue-identifier my-queue \ --slurm-configuration 'SlurmCustomSettings=[{parameterName=Default,parameterValue=YES}]'
contoh — Mengatur kustom Features pada grup node komputasi
aws pcs update-compute-node-group \ --cluster-identifier my-cluster \ --compute-node-group-identifier my-cng-1 \ --slurm-configuration \ 'SlurmCustomSettings=[{parameterName=Features,parameterValue="gpu,nvme"}]'

Validasi dan penanganan kesalahan

AWS PCS mengimplementasikan proses validasi berlapis-lapis untuk pengaturan Slurm kustom. Selama operasi membuat dan memperbarui, kami melakukan validasi sinkron yang mencakup:

  • Pemeriksaan tingkat lapangan: Kami memvalidasi pengaturan individual untuk tipe data yang benar, nilai yang diizinkan, dan persyaratan format. Misalnya, kami memastikan nilai waktu dalam format Slurm yang benar dan nilai boolean menggunakan representasi boolean Slurm yang diterima.

  • Validasi konteks-sadar: Beberapa pengaturan diperiksa terhadap konteks konfigurasi yang lebih luas. Misalnya, parameter tertentu hanya valid ketika akuntansi Slurm diaktifkan.

  • Konsistensi antar-pengaturan: Kami memverifikasi bahwa opsi yang saling eksklusif tidak disetel bersama dan pengaturan yang saling bergantung dikonfigurasi dengan benar.

Jika validasi gagal, Anda akan menerima ValidationException dengan kode kesalahan tertentu (misalnya, InvalidInput), pesan kesalahan yang jelas yang menjelaskan masalah, dan daftar bidang yang tidak valid dan detail kesalahannya masing-masing.

Sementara banyak masalah tertangkap selama validasi awal ini, beberapa interaksi kompleks antara pengaturan mungkin hanya menjadi jelas saat menerapkan konfigurasi. Dalam kasus seperti itu, operasi akan gagal dengan pesan kesalahan informatif, dan perubahan sebagian akan dibatalkan.

Batasan

AWS PCS menerapkan pendekatan daftar izin untuk melindungi keamanan layanan dan stabilitas operasional. Pengaturan yang dapat membahayakan keamanan akun layanan atau mengganggu kemampuan layanan terkelola dibatasi. Namun, kami terus mengevaluasi kebutuhan pelanggan dan dapat menambahkan dukungan untuk pengaturan tambahan berdasarkan umpan balik pelanggan.