Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
SageMaker HyperPod Rilis AMI untuk Slurm
Catatan rilis berikut melacak pembaruan terbaru untuk rilis Amazon SageMaker HyperPod AMI untuk orkestrasi Slurm. Ini dibangun HyperPod AMIs di atas AWS Deep Learning Base GPU AMI (Ubuntu 22.04
catatan
Untuk memperbarui HyperPod cluster yang ada dengan DLAMI terbaru, lihat. Perbarui perangkat lunak SageMaker HyperPod platform cluster
SageMaker HyperPod Rilis AMI untuk Slurm: 13 Mei 2025
Amazon SageMaker HyperPod merilis AMI yang diperbarui yang mendukung Ubuntu 22.04 LTS untuk cluster Slurm. AWS memperbarui secara teratur AMIs untuk memastikan Anda memiliki akses ke tumpukan perangkat lunak terbaru. Upgrade ke AMI terbaru memberikan peningkatan keamanan melalui pembaruan paket yang komprehensif, peningkatan kinerja dan stabilitas untuk beban kerja Anda, serta kompatibilitas dengan jenis instans baru dan fitur kernel terbaru.
penting
Pembaruan dari Ubuntu 20.04 LTS ke Ubuntu 22.04 LTS memperkenalkan perubahan yang mungkin memengaruhi kompatibilitas dengan perangkat lunak dan konfigurasi yang dirancang untuk Ubuntu 20.04.
Dalam catatan rilis ini, Anda akan melihat:
Pembaruan utama di Ubuntu 22.04 AMI
Tabel berikut mencantumkan versi komponen dari Ubuntu 22.04 AMI dibandingkan dengan AMI sebelumnya.
Komponen | Versi sebelumnya | Versi yang diperbarui |
---|---|---|
OS Ubuntu |
20,04 LTS |
22,04 LTS |
Slurm |
24.11 |
24.11 (tidak berubah) |
Python |
3.8 (default) |
3.10 (default) |
Adaptor Kain Elastis (EFA) di Amazon FSx |
Tidak didukung |
Didukung |
Kernel Linux |
5.15 |
6.8 |
Perpustakaan GNU C (glibc) |
2.31 |
2.35 |
Koleksi Kompiler GNU (GCC) |
9.4.0 |
11.4.0 |
libc6 |
≤ 2.31 |
≥ 2.35 didukung |
Sistem File Jaringan (NFS) |
1:1.3 .4 |
1:2.6 .1 |
catatan
Meskipun versi Slurm (24.11) tetap tidak berubah, pembaruan OS dan pustaka yang mendasari dalam AMI ini dapat memengaruhi perilaku sistem dan kompatibilitas beban kerja Anda. Anda harus menguji beban kerja Anda sebelum meningkatkan kluster produksi.
Upgrade ke Ubuntu 22.04 AMI
Sebelum memutakhirkan cluster Anda ke AMI Ubuntu 22.04, selesaikan langkah-langkah persiapan ini dan tinjau persyaratan pemutakhiran. Untuk memecahkan masalah kegagalan pemutakhiran, lihat. Memecahkan masalah kegagalan pemutakhiran
Tinjau kompatibilitas Python
Ubuntu 22.04 AMI menggunakan Python 3.10 sebagai versi default, ditingkatkan dari Python 3.8. Meskipun Python 3.10 mempertahankan kompatibilitas dengan sebagian besar kode Python 3.8, Anda harus menguji beban kerja yang ada sebelum memutakhirkan. Jika beban kerja Anda memerlukan Python 3.8, Anda dapat menginstalnya menggunakan perintah berikut dalam skrip siklus hidup Anda:
yum install python-3.8
Sebelum memutakhirkan klaster Anda, pastikan untuk melakukan hal berikut:
-
Uji kompatibilitas kode Anda dengan Python 3.10.
-
Verifikasi skrip siklus hidup Anda berfungsi di lingkungan baru.
-
Periksa apakah semua dependensi kompatibel dengan versi Python baru.
-
Jika Anda membuat HyperPod klaster dengan menyalin skrip siklus hidup default dari GitHub, tambahkan perintah berikut ke
setup_mariadb_accounting.sh
file Anda sebelum memutakhirkan ke Ubuntu 22. Untuk skrip lengkapnya, lihat setup_mariadb_accounting.sh di GitHub. apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
Tingkatkan klaster Slurm Anda
Anda dapat meningkatkan klaster Slurm Anda untuk menggunakan AMI baru dengan dua cara:
-
Buat cluster baru menggunakan
CreateCluster
API. -
Perbarui perangkat lunak cluster yang ada menggunakan
UpdateClusterSoftware
API.
Konfigurasi yang divalidasi
AWS telah menguji berbagai beban kerja pelatihan terdistribusi dan fitur infrastruktur pada instans G5, G6, G6e, P4d, P5, dan Trn1, termasuk:
-
Pelatihan terdistribusi dengan PyTorch (misalnya, FSDP,, LLa MA NeMo, MNIST).
-
Pengujian akselerator di seluruh tipe instans dengan Nvidia (seri P/G) dan AWS Neuron (Trn1).
-
Fitur ketahanan yang mencakup resume otomatis dan pemeriksaan kesehatan mendalam.
Waktu henti dan ketersediaan cluster
Selama proses upgrade, cluster tidak akan tersedia. Untuk meminimalkan gangguan, lakukan hal berikut:
-
Uji proses upgrade pada cluster yang lebih kecil.
-
Buat pos pemeriksaan sebelum pemutakhiran, lalu mulai ulang beban kerja pelatihan dari pos pemeriksaan yang ada setelah pemutakhiran selesai.
Memecahkan masalah kegagalan pemutakhiran
Ketika pemutakhiran gagal, pertama-tama tentukan apakah kegagalan terkait dengan skrip siklus hidup. Skrip ini biasanya gagal karena kesalahan sintaks, dependensi yang hilang, atau konfigurasi yang salah.
Untuk menyelidiki kegagalan yang terkait dengan skrip siklus hidup, periksa log. CloudWatch Semua SageMaker HyperPod peristiwa dan log disimpan di bawah grup log:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]
. Lihat secara khusus pada aliran logLifecycleConfig/[instance-group-name]/[instance-id]
, yang memberikan informasi terperinci tentang kesalahan apa pun selama eksekusi skrip.
SageMaker HyperPod Rilis AMI untuk Slurm: 07 Mei 2025
Amazon SageMaker HyperPod untuk Slurm merilis upgrade versi OS utama ke Ubuntu 22.04 (dari Ubuntu 20.04 sebelumnya). Periksa DLAMI Ubuntu 22.04 (catatan rilisDeep Learning Base OSS
Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503
Upgrade paket kunci:
-
Ubuntu 22.04 LTS (dari 20.04)
-
Versi Python:
-
Python 3.10 sekarang menjadi versi Python default di Slurm AMI Ubuntu 22.04
-
Upgrade ini menyediakan akses ke fitur terbaru, peningkatan kinerja dan perbaikan bug yang diperkenalkan di Python 3.10
-
-
Support untuk EFA di FSx
-
Kernel Linux baru versi 6.8 (diperbarui dari 5.15)
-
Versi Glibc: 2.35 (diperbarui dari 2.31)
-
Versi GCC: 11.4.0 (diperbarui dari 9.4.0)
-
Dukungan versi libc6 yang lebih baru (dari versi libc6 <= 2.31)
-
Versi NFS: 1:2.6 .1 (diperbarui dari 1:1.3 .4)
SageMaker HyperPod Rilis AMI untuk Slurm: 28 April 2025
Perbaikan untuk Slurm
-
Driver NVIDIA yang ditingkatkan dari versi 550.144.03 ke 550.163.01. Peningkatan ini untuk mengatasi Kerentanan dan Eksposur Umum (CVEs) yang ada di Buletin Keamanan Tampilan GPU NVIDIA
untuk April 2025.
Amazon SageMaker HyperPod DLAMI untuk dukungan Slurm
SageMaker HyperPod Rilis AMI untuk Slurm: 18 Februari 2025
Perbaikan untuk Slurm
-
Versi Slurm yang ditingkatkan ke 24.11.
-
Versi Elastic Fabric Adapter (EFA) yang ditingkatkan dari 1.37.0 ke 1.38.0.
-
EFA sekarang menyertakan plugin AWS OFI NCCL. Anda dapat menemukan plugin ini di
/opt/amazon/ofi-nccl
direktori, bukan/opt/aws-ofi-nccl/
lokasi aslinya. Jika Anda perlu memperbarui variabelLD_LIBRARY_PATH
lingkungan Anda, pastikan untuk memodifikasi jalur untuk menunjuk ke/opt/amazon/ofi-nccl
lokasi baru untuk plugin OFI NCCL. -
Menghapus paket emacs dari ini DLAMIs. Anda dapat menginstal emacs dari GNU emac.
Amazon SageMaker HyperPod DLAMI untuk dukungan Slurm
SageMaker HyperPod Rilis AMI untuk Slurm: 21 Desember 2024
SageMaker HyperPod DLAMI untuk dukungan Slurm
SageMaker HyperPod Rilis AMI untuk Slurm: 24 November 2024
Pembaruan umum AMI
-
Dirilis di Wilayah
MEL
(Melbourne). -
Diperbarui DLAMI SageMaker HyperPod dasar ke versi berikut:
-
Slurm: 2024-11-22.
-
SageMaker HyperPod Rilis AMI untuk Slurm: 15 November 2024
Pembaruan umum AMI
-
Menginstal
libnvidia-nscq-xxx
paket terbaru.
SageMaker HyperPod DLAMI untuk dukungan Slurm
SageMaker HyperPod Rilis AMI untuk Slurm: 11 November 2024
Pembaruan umum AMI
-
Diperbarui DLAMI SageMaker HyperPod dasar ke versi berikut:
-
Slurm: 2024-10-23.
-
SageMaker HyperPod Rilis AMI untuk Slurm: 21 Oktober 2024
Pembaruan umum AMI
-
Diperbarui DLAMI SageMaker HyperPod dasar ke versi berikut:
-
Slurm: 2024-09-27.
-
SageMaker HyperPod Rilis AMI untuk Slurm: 10 September 2024
SageMaker HyperPod DLAMI untuk dukungan Slurm
SageMaker HyperPod Rilis AMI untuk Slurm: 14 Maret 2024
HyperPod DLAMI untuk patch perangkat lunak Slurm
-
Ditambahkan Open PMIx
v4.2.6 untuk mengaktifkan Slurm dengan. PMIx -
Dibangun di atas GPU AMI AWS Deep Learning Base (Ubuntu 20.04)
yang dirilis pada 2023-10-26 -
Daftar lengkap paket pra-instal di HyperPod DLAMI ini selain AMI dasar
-
Buka PMIx
: v4.2.6 -
Kunci: v0.5.15
-
aws-neuronx-dkms
: v2. * -
aws-neuronx-collectives
: v2. * -
aws-neuronx-runtime-lib
: v2. * -
aws-neuronx-tools
: v2. * -
SageMaker HyperPod paket perangkat lunak untuk mendukung fitur seperti pemeriksaan kesehatan cluster dan auto-resume
Langkah-langkah upgrade
-
Jalankan perintah berikut untuk memanggil UpdateClusterSoftwareAPI untuk memperbarui HyperPod cluster yang ada dengan HyperPod DLAMI terbaru. Untuk menemukan petunjuk lebih lanjut, lihatPerbarui perangkat lunak SageMaker HyperPod platform cluster.
penting
Cadangkan pekerjaan Anda sebelum menjalankan API ini. Proses patching menggantikan volume root dengan AMI yang diperbarui, yang berarti bahwa data Anda sebelumnya yang disimpan dalam volume root instance akan hilang. Pastikan Anda mencadangkan data dari volume root instans ke Amazon S3 atau Amazon FSx for Lustre. Untuk informasi selengkapnya, lihat Gunakan skrip cadangan yang disediakan oleh SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
catatan
Perhatikan bahwa Anda harus menjalankan AWS CLI perintah untuk memperbarui HyperPod cluster Anda. Memperbarui HyperPod perangkat lunak melalui UI SageMaker HyperPod konsol saat ini tidak tersedia.
SageMaker HyperPod Rilis AMI untuk Slurm: 29 November 2023
HyperPod DLAMI untuk patch perangkat lunak Slurm
Tim HyperPod layanan mendistribusikan patch perangkat lunak melalui. SageMaker HyperPod DLAMI Lihat detail berikut tentang HyperPod DLAMI terbaru.
-
Dibangun di atas GPU AMI AWS Deep Learning Base (Ubuntu 20.04)
yang dirilis pada 2023-10-18 -
Daftar lengkap paket pra-instal di HyperPod DLAMI ini selain AMI dasar
-
Kunci: v0.5.15
-
aws-neuronx-dkms
: v2. * -
aws-neuronx-collectives
: v2. * -
aws-neuronx-runtime-lib
: v2. * -
aws-neuronx-tools
: v2. * -
SageMaker HyperPod paket perangkat lunak untuk mendukung fitur seperti pemeriksaan kesehatan cluster dan auto-resume