Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pertanyaan yang sering diajukan tentang penggunaan Blok Kapasitas dengan AWS PCS
- Saya baru saja membayar Blok Kapasitas dan segera mencoba menggunakannya dengan AWS PCS tetapi pembuatan grup node komputasi gagal. Apa yang terjadi?
-
Blok Kapasitas Anda mungkin tidak dalam
activekeadaanscheduledatau. Coba lagi setelah Blok Kapasitasscheduledatauactive. - Saya menggunakan Blok Kapasitas di AWS PCS dan saya membeli ekstensi sebelum kedaluwarsa. Bagaimana cara saya terus menggunakannya di AWS PCS?
-
Anda tidak perlu melakukan apa pun untuk terus menggunakan Blok Kapasitas di AWS PCS. Tanggal akhir Blok Kapasitas Anda diperbarui setelah pembayaran ekstensi Anda berhasil. Selama Blok Kapasitas Anda tidak kedaluwarsa, grup node komputasi terus beroperasi. Jika pembayaran ekstensi gagal, Blok Kapasitas tetap ada
activedan grup node komputasi beroperasi hingga Blok Kapasitas berakhir pada tanggal akhir aslinya. - Apa yang terjadi pada pekerjaan saya yang sedang antri dan berjalan jika Blok Kapasitas saya kedaluwarsa?
-
Pekerjaan antrian yang tidak dimulai sebelum Blok Kapasitas kedaluwarsa tetap tertunda hingga Anda melampirkan grup node komputasi lain ke antrian atau Anda memperbarui grup node komputasi dengan Blok Kapasitas baru. Anda masih dapat mengirimkan pekerjaan ke antrian. Pengaturan Slurm Anda memengaruhi pekerjaan aktif. Secara default, pekerjaan aktif secara otomatis diantrian ulang, tetapi mungkin memiliki kesalahan atau gagal.
- Blok Kapasitas Saya kedaluwarsa. Haruskah aku melakukan sesuatu?
-
Anda tidak perlu melakukan apa pun. Anda dapat memeriksa EC2 konsol Amazon untuk status reservasi EC2 kapasitas Anda. Ketika Blok Kapasitas kedaluwarsa, grup node komputasi yang terkait dengan Blok Kapasitas itu terus ada dan menangani antrian yang sama. Grup node komputasi tidak memiliki instance apa pun untuk menjalankan pekerjaan. Anda dapat menghapus grup node komputasi atau memisahkannya dari antrian untuk mencegah pengguna mengirimkan pekerjaan yang tidak akan berjalan.
- Saya ingin menggunakan Blok Kapasitas baru dengan grup node komputasi AWS PCS saya. Apa yang harus saya lakukan?
-
Kami menyarankan Anda membuat grup node komputasi baru untuk menggunakan Blok Kapasitas baru. Untuk informasi selengkapnya, lihat Konfigurasikan grup node komputasi AWS PCS untuk menggunakan Blok Kapasitas.
- Bagaimana cara berbagi 1 Blok Kapasitas di seluruh cluster dan layanan?
-
Anda dapat membagi Blok Kapasitas di beberapa cluster dan layanan. Misalnya, untuk membagi Blok Kapasitas dengan 64
p5.48xlargeinstance dengan 20 node pada PCS-Cluster-1, 16 node pada PCS-Cluster-2, dan node yang tersisa untuk layanan lain, atur keduanya dan 20 untuk PCS-Cluster-1minInstanceCountdanmaxInstanceCount16 untuk PCS-Cluster-2. - Dapatkah saya menggunakan lebih dari 1 Blok Kapasitas atau kapasitas gabungan dengan 1 grup node komputasi?
-
Tidak. Hanya 1 Blok Kapasitas yang dapat dikaitkan dengan grup node komputasi tunggal. AWS PCS tidak mendukung grup reservasi kapasitas yang menggabungkan beberapa Blok Kapasitas.
- Bagaimana saya tahu kapan Blok Kapasitas saya mulai atau kedaluwarsa?
-
Terlepas dari AWS PCS, Amazon EC2 mengirimkan
Capacity Block Reservation Deliveredacara melalui EventBridge saat reservasi Blok Kapasitas dimulai danCapacity Block Reservation Expiration Warningacara 40 menit sebelum reservasi Blok Kapasitas berakhir. Untuk informasi selengkapnya, lihat Memantau Blok Kapasitas menggunakan EventBridge Panduan Pengguna Amazon Elastic Compute Cloud. - Bagaimana cara Slurm melacak status Blok Kapasitas saya?
-
Anda dapat menjalankan
sinfountuk memahami bagaimana AWS PCS menggunakan Blok Kapasitas. Dalam contoh output berikut, antrian dikaitkan dengan grup node komputasi yang menjalankan 4 instanceactivedari Blok Kapasitas. Node berada dalam keadaanidleSlurm (tersedia untuk digunakan dan belum dialokasikan untuk pekerjaan apa pun).$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST fanout up infinite 4 idle node-fanout-[1-4]Jika node berada dalam
maintstatus, Anda dapat menjalankanscontrol show resuntuk melihat detail tentang reservasi Slurm yang mengontrol status ini. Dalam contoh output berikut, Blok Kapasitas adalahscheduleddengan tanggal mulai future.$ scontrol show res ReservationName=node-fanout-scheduled StartTime=2025-10-14T13:09:17 EndTime=2025-10-14T13:11:17 Duration=00:02:00 Nodes=node-fanout-[1-4] NodeCnt=4 CoreCnt=16 Features=(null) PartitionName=(null) Flags=MAINT,SPEC_NODES TRES=cpu=16 Users=root Groups=(null) Accounts=(null) Licenses=(null) State=ACTIVE BurstBuffer=(null) MaxStartDelay=(null) Comment=node-fanout Scheduled - Bagaimana saya bisa tahu apakah kesalahan yang saya dapatkan saat meluncurkan kapasitas adalah karena Blok Kapasitas saya dibagikan?
-
Periksa Reservasi Kapasitas di EC2 konsol Amazon untuk mengetahui berapa banyak instans dari Blok Kapasitas yang disediakan secara aktif. Periksa tag setiap instance untuk menemukan layanan atau cluster mana yang menggunakannya. Misalnya, semua instance untuk AWS PCS memiliki tag AWS PCS seperti
aws:pcs:cluster-id = pcs_l0mizqyk5o | aws:pcs:compute-node-group-id = pcs_ic7onkmfqkyang menunjukkan cluster dan grup node komputasi mana yang dimiliki instance. Anda kemudian dapat memeriksa apakah Blok Kapasitas berada pada kapasitas maksimum.Anda gunakan
scontrol show nodesuntuk memeriksa apakah node Blok Kapasitas di cluster AWS PCS memicuReservationCapacityExceeded:[root@ip-172-16-10-54 ~]# scontrol show nodes test-node-8-gamma-cb-2 NodeName=test-8-gamma-cb-2 CoresPerSocket=1 CPUAlloc=0 CPUEfctv=8 CPUTot=8 CPULoad=0.00 AvailableFeatures=test-8-gamma-cb,gpu ActiveFeatures=test-8-gamma-cb,gpu Gres=gpu:H100:1 NodeAddr=test-8-gamma-cb-2 NodeHostName=test-8-gamma-cb-2 RealMemory=249036 AllocMem=0 FreeMem=N/A Sockets=8 Boards=1 State=IDLE+CLOUD+POWERING_DOWN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A Partitions=my-q BootTime=None SlurmdStartTime=None LastBusyTime=Unknown ResumeAfterTime=None CfgTRES=cpu=8,mem=249036M,billing=8 AllocTRES= CurrentWatts=0 AveWatts=0 Reason=Failed to launch backing instance (Error Code: ReservationCapacityExceeded) [root@2025-08-28T15:15:33] - Ketika beberapa grup node komputasi dilampirkan ke antrian yang sama, bagaimana saya bisa memaksa pekerjaan untuk berjalan pada instance yang didukung Blok Kapasitas?
-
Anda dapat menggunakan fitur dan kendala Slurm untuk mengunci pekerjaan ke set node tertentu. Kami menyarankan Anda untuk tidak menyetel bobot Slurm untuk setiap grup node komputasi karena itu hanya berfungsi dengan node yang tidak dalam status.
maint