SageMaker HyperPod Rilis AMI untuk Slurm - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

SageMaker HyperPod Rilis AMI untuk Slurm

Catatan rilis berikut melacak pembaruan terbaru untuk rilis Amazon SageMaker HyperPod AMI untuk orkestrasi Slurm. Ini dibangun HyperPod AMIs di atas AWS Deep Learning Base GPU AMI (Ubuntu 22.04). Tim HyperPod layanan mendistribusikan patch perangkat lunak melalui. SageMaker HyperPod DLAMI Untuk rilis HyperPod AMI untuk orkestrasi Amazon EKS, lihat. SageMaker HyperPod Rilis AMI untuk Amazon EKS Untuk informasi tentang rilis SageMaker HyperPod fitur Amazon, lihatCatatan SageMaker HyperPod rilis Amazon.

catatan

Untuk memperbarui HyperPod cluster yang ada dengan DLAMI terbaru, lihat. Perbarui perangkat lunak SageMaker HyperPod platform cluster

SageMaker HyperPod Rilis AMI untuk Slurm: 13 Mei 2025

Amazon SageMaker HyperPod merilis AMI yang diperbarui yang mendukung Ubuntu 22.04 LTS untuk cluster Slurm. AWS memperbarui secara teratur AMIs untuk memastikan Anda memiliki akses ke tumpukan perangkat lunak terbaru. Upgrade ke AMI terbaru memberikan peningkatan keamanan melalui pembaruan paket yang komprehensif, peningkatan kinerja dan stabilitas untuk beban kerja Anda, serta kompatibilitas dengan jenis instans baru dan fitur kernel terbaru.

penting

Pembaruan dari Ubuntu 20.04 LTS ke Ubuntu 22.04 LTS memperkenalkan perubahan yang mungkin memengaruhi kompatibilitas dengan perangkat lunak dan konfigurasi yang dirancang untuk Ubuntu 20.04.

Pembaruan utama di Ubuntu 22.04 AMI

Tabel berikut mencantumkan versi komponen dari Ubuntu 22.04 AMI dibandingkan dengan AMI sebelumnya.

Versi komponen dari Ubuntu 22.04 AMI dibandingkan dengan AMI sebelumnya
Komponen Versi sebelumnya Versi yang diperbarui

OS Ubuntu

20,04 LTS

22,04 LTS

Slurm

24.11

24.11 (tidak berubah)

Python

3.8 (default)

3.10 (default)

Adaptor Kain Elastis (EFA) di Amazon FSx

Tidak didukung

Didukung

Kernel Linux

5.15

6.8

Perpustakaan GNU C (glibc)

2.31

2.35

Koleksi Kompiler GNU (GCC)

9.4.0

11.4.0

libc6

≤ 2.31

≥ 2.35 didukung

Sistem File Jaringan (NFS)

1:1.3 .4

1:2.6 .1

catatan

Meskipun versi Slurm (24.11) tetap tidak berubah, pembaruan OS dan pustaka yang mendasari dalam AMI ini dapat memengaruhi perilaku sistem dan kompatibilitas beban kerja Anda. Anda harus menguji beban kerja Anda sebelum meningkatkan kluster produksi.

Upgrade ke Ubuntu 22.04 AMI

Sebelum memutakhirkan cluster Anda ke AMI Ubuntu 22.04, selesaikan langkah-langkah persiapan ini dan tinjau persyaratan pemutakhiran. Untuk memecahkan masalah kegagalan pemutakhiran, lihat. Memecahkan masalah kegagalan pemutakhiran

Tinjau kompatibilitas Python

Ubuntu 22.04 AMI menggunakan Python 3.10 sebagai versi default, ditingkatkan dari Python 3.8. Meskipun Python 3.10 mempertahankan kompatibilitas dengan sebagian besar kode Python 3.8, Anda harus menguji beban kerja yang ada sebelum memutakhirkan. Jika beban kerja Anda memerlukan Python 3.8, Anda dapat menginstalnya menggunakan perintah berikut dalam skrip siklus hidup Anda:

yum install python-3.8

Sebelum memutakhirkan klaster Anda, pastikan untuk melakukan hal berikut:

  1. Uji kompatibilitas kode Anda dengan Python 3.10.

  2. Verifikasi skrip siklus hidup Anda berfungsi di lingkungan baru.

  3. Periksa apakah semua dependensi kompatibel dengan versi Python baru.

  4. Jika Anda membuat HyperPod klaster dengan menyalin skrip siklus hidup default dari GitHub, tambahkan perintah berikut ke setup_mariadb_accounting.sh file Anda sebelum memutakhirkan ke Ubuntu 22. Untuk skrip lengkapnya, lihat setup_mariadb_accounting.sh di GitHub.

    apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg

Tingkatkan klaster Slurm Anda

Anda dapat meningkatkan klaster Slurm Anda untuk menggunakan AMI baru dengan dua cara:

  1. Buat cluster baru menggunakan CreateClusterAPI.

  2. Perbarui perangkat lunak cluster yang ada menggunakan UpdateClusterSoftwareAPI.

Konfigurasi yang divalidasi

AWS telah menguji berbagai beban kerja pelatihan terdistribusi dan fitur infrastruktur pada instans G5, G6, G6e, P4d, P5, dan Trn1, termasuk:

  • Pelatihan terdistribusi dengan PyTorch (misalnya, FSDP,, LLa MA NeMo, MNIST).

  • Pengujian akselerator di seluruh tipe instans dengan Nvidia (seri P/G) dan AWS Neuron (Trn1).

  • Fitur ketahanan yang mencakup resume otomatis dan pemeriksaan kesehatan mendalam.

Waktu henti dan ketersediaan cluster

Selama proses upgrade, cluster tidak akan tersedia. Untuk meminimalkan gangguan, lakukan hal berikut:

  • Uji proses upgrade pada cluster yang lebih kecil.

  • Buat pos pemeriksaan sebelum pemutakhiran, lalu mulai ulang beban kerja pelatihan dari pos pemeriksaan yang ada setelah pemutakhiran selesai.

Memecahkan masalah kegagalan pemutakhiran

Ketika pemutakhiran gagal, pertama-tama tentukan apakah kegagalan terkait dengan skrip siklus hidup. Skrip ini biasanya gagal karena kesalahan sintaks, dependensi yang hilang, atau konfigurasi yang salah.

Untuk menyelidiki kegagalan yang terkait dengan skrip siklus hidup, periksa log. CloudWatch Semua SageMaker HyperPod peristiwa dan log disimpan di bawah grup log:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]. Lihat secara khusus pada aliran logLifecycleConfig/[instance-group-name]/[instance-id], yang memberikan informasi terperinci tentang kesalahan apa pun selama eksekusi skrip.

Jika kegagalan pemutakhiran tidak terkait dengan skrip siklus hidup, kumpulkan informasi yang relevan termasuk ARN cluster, log kesalahan, dan stempel waktu, kemudian hubungi dukungan untuk bantuan lebih lanjut.AWS

SageMaker HyperPod Rilis AMI untuk Slurm: 07 Mei 2025

Amazon SageMaker HyperPod untuk Slurm merilis upgrade versi OS utama ke Ubuntu 22.04 (dari Ubuntu 20.04 sebelumnya). Periksa DLAMI Ubuntu 22.04 (catatan rilis) untuk informasi lebih lanjut:. Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503

Upgrade paket kunci:

  • Ubuntu 22.04 LTS (dari 20.04)

  • Versi Python:

    • Python 3.10 sekarang menjadi versi Python default di Slurm AMI Ubuntu 22.04

    • Upgrade ini menyediakan akses ke fitur terbaru, peningkatan kinerja dan perbaikan bug yang diperkenalkan di Python 3.10

  • Support untuk EFA di FSx

  • Kernel Linux baru versi 6.8 (diperbarui dari 5.15)

  • Versi Glibc: 2.35 (diperbarui dari 2.31)

  • Versi GCC: 11.4.0 (diperbarui dari 9.4.0)

  • Dukungan versi libc6 yang lebih baru (dari versi libc6 <= 2.31)

  • Versi NFS: 1:2.6 .1 (diperbarui dari 1:1.3 .4)

SageMaker HyperPod Rilis AMI untuk Slurm: 28 April 2025

Perbaikan untuk Slurm

  • Driver NVIDIA yang ditingkatkan dari versi 550.144.03 ke 550.163.01. Peningkatan ini untuk mengatasi Kerentanan dan Eksposur Umum (CVEs) yang ada di Buletin Keamanan Tampilan GPU NVIDIA untuk April 2025.

Amazon SageMaker HyperPod DLAMI untuk dukungan Slurm

Installed the latest version of AWS Neuron SDK
  • aws-neuronx-collectives: 2.24.59.0-838c7fc8b

  • aws-neuronx-dkms: 2.20.28.0

  • aws-neuronx-runtime-lib: 2.24.53.0-f239092cc

  • aws-neuronx-tools/tidak diketahui: 2.22.61.0

SageMaker HyperPod Rilis AMI untuk Slurm: 18 Februari 2025

Perbaikan untuk Slurm

  • Versi Slurm yang ditingkatkan ke 24.11.

  • Versi Elastic Fabric Adapter (EFA) yang ditingkatkan dari 1.37.0 ke 1.38.0.

  • EFA sekarang menyertakan plugin AWS OFI NCCL. Anda dapat menemukan plugin ini di /opt/amazon/ofi-nccl direktori, bukan /opt/aws-ofi-nccl/ lokasi aslinya. Jika Anda perlu memperbarui variabel LD_LIBRARY_PATH lingkungan Anda, pastikan untuk memodifikasi jalur untuk menunjuk ke /opt/amazon/ofi-nccl lokasi baru untuk plugin OFI NCCL.

  • Menghapus paket emacs dari ini DLAMIs. Anda dapat menginstal emacs dari GNU emac.

Amazon SageMaker HyperPod DLAMI untuk dukungan Slurm

Installed the latest version of AWS Neuron SDK 2.19
  • aws-neuronx-collectives/tidak diketahui: 2.23.135.0-3e70920f2 amd64

  • aws-neuronx-dkms/tidak diketahui: 2.19.64.0 amd64

  • aws-neuronx-runtime-lib/tidak diketahui: 2.23.112.0-9b5179492 amd64

  • aws-neuronx-tools/tidak diketahui: 2.20.204.0 amd64

SageMaker HyperPod Rilis AMI untuk Slurm: 21 Desember 2024

SageMaker HyperPod DLAMI untuk dukungan Slurm

Deep Learning Slurm AMI
  • Driver NVIDIA: 550.127.05

  • Pengemudi EFA: 2.13.0-1

  • Menginstal versi terbaru AWS Neuron SDK

    • aws-neuronx-collectives: 2.22.33.0

    • aws-neuronx-dkms: 2.18.20.0

    • aws-neuronx-oci-hook: 2.5.8.0

    • aws-neuronx-runtime-lib: 2.22.19.0

    • aws-neuronx-tools: 2.19.0.0

SageMaker HyperPod Rilis AMI untuk Slurm: 24 November 2024

Pembaruan umum AMI

  • Dirilis di Wilayah MEL (Melbourne).

  • Diperbarui DLAMI SageMaker HyperPod dasar ke versi berikut:

    • Slurm: 2024-11-22.

SageMaker HyperPod Rilis AMI untuk Slurm: 15 November 2024

Pembaruan umum AMI

  • Menginstal libnvidia-nscq-xxx paket terbaru.

SageMaker HyperPod DLAMI untuk dukungan Slurm

Deep Learning Slurm AMI
  • Driver NVIDIA: 550.127.05

  • Pengemudi EFA: 2.13.0-1

  • Menginstal versi terbaru AWS Neuron SDK

    • aws-neuronx-collectives: v2.22.33.0-d2128d1aa

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod Rilis AMI untuk Slurm: 11 November 2024

Pembaruan umum AMI

  • Diperbarui DLAMI SageMaker HyperPod dasar ke versi berikut:

    • Slurm: 2024-10-23.

SageMaker HyperPod Rilis AMI untuk Slurm: 21 Oktober 2024

Pembaruan umum AMI

  • Diperbarui DLAMI SageMaker HyperPod dasar ke versi berikut:

    • Slurm: 2024-09-27.

SageMaker HyperPod Rilis AMI untuk Slurm: 10 September 2024

SageMaker HyperPod DLAMI untuk dukungan Slurm

Deep Learning Slurm AMI
  • Menginstal driver NVIDIA v550.90.07

  • Menginstal driver EFA v2.10

  • Menginstal versi terbaru AWS Neuron SDK

    • aws-neuronx-collectives: v2.21.46.0

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod Rilis AMI untuk Slurm: 14 Maret 2024

HyperPod DLAMI untuk patch perangkat lunak Slurm

Langkah-langkah upgrade

  • Jalankan perintah berikut untuk memanggil UpdateClusterSoftwareAPI untuk memperbarui HyperPod cluster yang ada dengan HyperPod DLAMI terbaru. Untuk menemukan petunjuk lebih lanjut, lihatPerbarui perangkat lunak SageMaker HyperPod platform cluster.

    penting

    Cadangkan pekerjaan Anda sebelum menjalankan API ini. Proses patching menggantikan volume root dengan AMI yang diperbarui, yang berarti bahwa data Anda sebelumnya yang disimpan dalam volume root instance akan hilang. Pastikan Anda mencadangkan data dari volume root instans ke Amazon S3 atau Amazon FSx for Lustre. Untuk informasi selengkapnya, lihat Gunakan skrip cadangan yang disediakan oleh SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    catatan

    Perhatikan bahwa Anda harus menjalankan AWS CLI perintah untuk memperbarui HyperPod cluster Anda. Memperbarui HyperPod perangkat lunak melalui UI SageMaker HyperPod konsol saat ini tidak tersedia.

SageMaker HyperPod Rilis AMI untuk Slurm: 29 November 2023

HyperPod DLAMI untuk patch perangkat lunak Slurm

Tim HyperPod layanan mendistribusikan patch perangkat lunak melalui. SageMaker HyperPod DLAMI Lihat detail berikut tentang HyperPod DLAMI terbaru.

  • Dibangun di atas GPU AMI AWS Deep Learning Base (Ubuntu 20.04) yang dirilis pada 2023-10-18

  • Daftar lengkap paket pra-instal di HyperPod DLAMI ini selain AMI dasar

    • Buburan: v23.02.3

    • Kunci: v0.5.15

    • aws-neuronx-dkms: v2. *

    • aws-neuronx-collectives: v2. *

    • aws-neuronx-runtime-lib: v2. *

    • aws-neuronx-tools: v2. *

    • SageMaker HyperPod paket perangkat lunak untuk mendukung fitur seperti pemeriksaan kesehatan cluster dan auto-resume