Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
AWS GPU AMI Dasar Pembelajaran Mendalam (Ubuntu 20.04)
Pemberitahuan Keluar dari Support
Ubuntu Linux 20.04 LTS mencapai akhir jendela LTS lima tahun pada 31 Mei 2025 dan tidak akan lagi didukung oleh vendornya. Akibatnya, AWS Deep Learning Base GPU AMI (Ubuntu 20.04) tidak akan memiliki pembaruan setelah 31 Mei 2025. Rilis sebelumnya akan terus tersedia. Harap dicatat bahwa AMI apa pun yang dirilis secara publik akan dihentikan EC2 setelah 2 tahun dari tanggal pembuatannya. Silakan merujuk ke Menghentikan Amazon EC2 AMI untuk informasi lebih lanjut.
Selama 3 bulan, hingga 31 Agustus 2025, dukungan hanya akan diberikan untuk masalah fungsionalitas (bukan tambalan keamanan).
Pengguna Ubuntu 20.04 DLAMI harus pindah AWS ke Deep Learning Base GPU AMI (Ubuntu 22.04) atau AWS Deep Learning Base GPU
AMI (Ubuntu 24.04 ). Atau, AWS Deep Learning Base AMI (Amazon Linux 2023) dapat digunakan.
Untuk bantuan memulai, lihatMemulai dengan DLAMI.
Format nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) $ {YYYY-MM-DD}
GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) $ {YYYY-MM-DD}
EC2 Contoh yang didukung
Silakan lihat Perubahan penting pada DLAMI.
Pembelajaran Mendalam dengan OSS Nvidia Driver mendukung G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
Pembelajaran Mendalam dengan Driver Nvidia Proprietary mendukung G3 (G3.16x tidak didukung), P3, P3dn
AMI meliputi yang berikut:
AWS Layanan yang Didukung: Amazon EC2
Sistem Operasi: Ubuntu 20.04
Arsitektur Komputasi: x86
Versi terbaru yang tersedia diinstal untuk paket-paket berikut:
Kernel Linux 5.15
FSx Kilau
Docker
AWS CLI v2 di/usr/local/bin/aws2 dan AWS CLI v1 di/usr/bin/aws
NVIDIA DCGM
Toolkit wadah Nvidia:
Perintah versi: nvidia-container-cli -V
NVIDIA-Docker2:
Perintah versi: versi nvidia-docker
Pengemudi NVIDIA:
Pengemudi OSS Nvidia: 550.163.01
Driver Nvidia eksklusif: 550.163.01
NVIDIA CUDA 11.7, 12.1-12.4 tumpukan:
Direktori instalasi CUDA, NCCL dan cudDN:/-xx.x/ usr/local/cuda
Contoh:/usr/local/cuda-12.1/
Versi NCCL yang dikompilasi: 2.22.3+ .4 CUDA12
CUDA standar: 12.1
PATH/usr/local/cudamenunjuk ke CUDA 12.1
Diperbarui di bawah env vars:
LD_LIBRARY_PATH memiliki/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PATH untuk memiliki/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/
Untuk versi CUDA yang berbeda, harap perbarui LD_LIBRARY_PATH yang sesuai.
Lokasi Tes NCCL:
all_reduce, all_gather dan reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
Untuk menjalankan pengujian NCCL, LD_LIBRARY_PATH harus melewati pembaruan di bawah ini.
Umum sudah PATHs ditambahkan ke LD_LIBRARY_PATH:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
Untuk versi CUDA yang berbeda, harap perbarui LD_LIBRARY_PATH yang sesuai.
Pemasang EFA: 1.39.0
Nvidia GDRCopy: 2.4
AWS Plugin OFI NCCL: diinstal sebagai bagian dari Installer-AWS EFA
AWS OFI NCCL sekarang mendukung beberapa versi NCCL dengan build tunggal
Jalur instalasi:/ditambahkan ke opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib LD_LIBRARY_PATH.
Jalur pengujian untuk dering, message_transfer:/opt/aws-ofi-nccl/tests
Jenis volume EBS: gp3
Python:/3.9 usr/bin/python
NVMe Lokasi Penyimpanan Instance (pada EC2 Instans yang Didukung):/opt/dlami/nvme
Kueri AMI-ID dengan Parameter SSM (contoh Wilayah adalah us-east-1):
Pengemudi OSS Nvidia:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output textPengemudi Nvidia Berpemilik:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
Kueri AMI-ID dengan AWSCLI (contoh Wilayah adalah us-east-1):
Pengemudi OSS Nvidia:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output textPengemudi Nvidia Berpemilik:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Pemberitahuan
Toolkit Kontainer NVIDIA 1.17.4
Dalam Container Toolkit versi 1.17.4 pemasangan pustaka compat CUDA sekarang dinonaktifkan. Untuk memastikan kompatibilitas dengan beberapa versi CUDA pada alur kerja kontainer, pastikan Anda memperbarui LD_LIBRARY_PATH Anda untuk menyertakan pustaka kompatibilitas CUDA Anda seperti yang ditunjukkan dalam tutorial Jika Anda menggunakan lapisan kompatibilitas CUDA.
Pembaruan EFA dari 1.37 ke 1.38 (Rilis pada 2025-02-04)
EFA sekarang menggabungkan plugin AWS OFI NCCL, yang sekarang dapat ditemukan di/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Jika memperbarui variabel LD_LIBRARY_PATH Anda, pastikan Anda memodifikasi lokasi OFI NCCL Anda dengan benar.
Kebijakan dukungan
Komponen AMI ini seperti versi CUDA dapat dihapus dan diubah berdasarkan kebijakan dukungan kerangka kerja atau untuk mengoptimalkan kinerja untuk wadah pembelajaran mendalam
EC2 contoh dengan beberapa kartu jaringan
Banyak jenis contoh yang mendukung EFA juga memiliki beberapa kartu jaringan.
DeviceIndex unik untuk setiap kartu jaringan, dan harus berupa bilangan bulat non-negatif kurang dari batas per. ENIs NetworkCard Pada P5, jumlah ENIs per NetworkCard adalah 2, yang berarti bahwa satu-satunya nilai yang valid untuk DeviceIndex adalah 0 atau 1.
Untuk antarmuka jaringan utama (indeks kartu jaringan 0, indeks perangkat 0), buat antarmuka EFA (EFA dengan ENA). Anda tidak dapat menggunakan antarmuka jaringan khusus EFA sebagai antarmuka jaringan utama.
Untuk setiap antarmuka jaringan tambahan, gunakan indeks kartu jaringan yang tidak digunakan berikutnya, indeks perangkat 1, dan EFA (EFA dengan ENA) atau antarmuka jaringan khusus EFA, tergantung pada kasus penggunaan Anda, seperti persyaratan bandwidth ENA atau ruang alamat IP. Misalnya kasus penggunaan, lihat konfigurasi EFA untuk instance P5.
Untuk informasi lebih lanjut, lihat Panduan EFA di sini.
Contoh P5/P5e
Instans P5 dan P5e berisi 32 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Contoh P5en
P5en berisi 16 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
Versi kernel disematkan menggunakan perintah:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selectionsKami menyarankan agar pengguna menghindari memperbarui versi kernel mereka (kecuali karena patch keamanan) untuk memastikan kompatibilitas dengan driver dan versi paket yang diinstal. Jika pengguna masih ingin memperbarui, mereka dapat menjalankan perintah berikut untuk melepas pin versi kernel mereka:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selectionsUntuk setiap versi baru DLAMI, kernel kompatibel terbaru yang tersedia digunakan.
Tanggal Rilis: 2025-04-24
Nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250424
GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20250424
Diperbarui
Tanggal Rilis: 2025-02-17
Nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250214
GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20250214
Diperbarui
Diperbarui NVIDIA Container Toolkit dari versi 1.17.3 ke versi 1.17.4
Silakan lihat halaman catatan rilis di sini untuk informasi lebih lanjut: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
Di Container Toolkit versi 1.17.4, pemasangan pustaka compat CUDA sekarang dinonaktifkan. Untuk memastikan kompatibilitas dengan beberapa versi CUDA pada alur kerja kontainer, pastikan Anda memperbarui LD_LIBRARY_PATH Anda untuk menyertakan pustaka kompatibilitas CUDA Anda seperti yang ditunjukkan dalam tutorial Jika Anda menggunakan lapisan kompatibilitas CUDA.
Dihapus
Pustaka ruang pengguna yang dihapus cuobj dan nvdisasm disediakan oleh toolkit NVIDIA CUDA untuk mengatasi yang CVEs ada di Buletin Keamanan NVIDIA CUDA Toolkit
untuk 18 Februari 2025
Tanggal Rilis: 2025-02-04
Nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250204
GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20250204
Diperbarui
Versi EFA yang ditingkatkan dari 1.37.0 ke 1.38.0
EFA sekarang menggabungkan plugin AWS OFI NCCL, yang sekarang dapat ditemukan di/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Jika memperbarui variabel LD_LIBRARY_PATH Anda, pastikan Anda memodifikasi lokasi OFI NCCL Anda dengan benar.
Dihapus
Paket emacs telah dihapus dari ini DLAMIs. Pelanggan dapat menginstal emacs dari GNU emacs. https://www.gnu.org/software/emacs/download.html
Tanggal Rilis: 2025-01-17
Nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250117
GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20250117
Diperbarui
Tanggal Rilis: 2024-12-09
Nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241206
GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20241206
Diperbarui
Toolkit Kontainer Nvidia yang ditingkatkan dari versi 1.17.0 ke 1.17.3
Tanggal Rilis: 2024-11-22
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241122
Ditambahkan
Menambahkan dukungan untuk Instans P5en EC2 .
Diperbarui
Installer EFA yang ditingkatkan dari versi 1.35.0 ke 1.37.0
Tingkatkan Plugin AWS OFI NCCL dari versi 1.12.1-aws ke 1.13.0-aws
Tanggal Rilis: 2024-10-26
Nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241025
GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20241025
Diperbarui
Tanggal Rilis: 2024-10-03
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240927
Diperbarui
Toolkit Kontainer Nvidia yang ditingkatkan dari versi 1.16.1 ke 1.16.2
Tanggal Rilis: 2024-08-27
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240827
Diperbarui
Driver Nvidia dan Fabric Manager yang ditingkatkan dari versi 535.183.01 ke 550.90.07
Versi EFA yang ditingkatkan dari 1.32.0 ke 1.34.0
Upgrade NCCL ke versi terbaru 2.22.3 untuk semua versi CUDA
CUDA 11.7 ditingkatkan dari versi 2.16.2+ .7 CUDA11
CUDA 12.1, 12.2 ditingkatkan dari 2.18.5+ .2 CUDA12
CUDA 12.3 ditingkatkan dari versi 2.21.5+ .4 CUDA12
Ditambahkan
Ditambahkan CUDA toolkit versi 12.4 di direktori/-12.4 usr/local/cuda
Ditambahkan dukungan untuk P5e Instance EC2 .
Dihapus
Dihapus CUDA Toolkit versi 11.8 tumpukan hadir di direktori/-11.8 usr/local/cuda
Tanggal Rilis: 2024-08-19
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240816
Ditambahkan
Ditambahkan dukungan untuk contoh G6e EC2
.
Tanggal Rilis: 2024-06-06
Nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240606
GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20240606
Diperbarui
Diperbarui versi driver Nvidia ke 535.183.01 dari 535.161.08
Tanggal Rilis: 2024-05-15
Nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240515
GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20240515
Ditambahkan
Ditambahkan kembali CUDA11 .7 tumpukan di direktori/usr/local/cuda-11.7 dengan CUDA11 .7, NCCL 2.16.2, cuDNN 8.7.0 sebagai 1.13 mendukung .7 PyTorch CUDA11
Tanggal Rilis: 2024-05-02
Nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240502
GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20240502
Diperbarui
Diperbarui versi EFA dari versi 1.30 ke versi 1.32
Diperbarui plugin AWS OFI NCCL dari versi 1.7.4 ke versi 1.9.1
Toolkit kontainer Nvidia yang diperbarui dari versi 1.13.5 ke versi 1.15.0
Versi 1.15.0 TIDAK menyertakan paket nvidia-container-runtime dan nvidia-docker2. Disarankan untuk menggunakan nvidia-container-toolkit paket secara langsung dengan mengikuti dokumen toolkit kontainer Nvidia
.
Ditambahkan
Ditambahkan CUDA12 .3 tumpukan CUDA12 dengan.3, NCCL 2.21.5, cuDNN 8.9.7
Dihapus
Menghapus tumpukan CUDA11 .7, CUDA12 .0 yang ada di direktori/-12.0 usr/local/cuda-11.7 and /usr/local/cuda
Menghapus paket nvidia-docker2 dan perintahnya nvidia-docker sebagai bagian dari pembaruan toolkit kontainer Nvidia dari 1.13.5 ke 1.15.0 yang TIDAK menyertakan paket dan nvidia-docker2.
nvidia-container-runtime
Tanggal Rilis: 2024-04-04
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240404
Ditambahkan
Untuk driver OSS Nvidia DLAMIs, menambahkan dukungan instans G6 dan Gr6 EC2 . Silakan merujuk ke Instans GPU yang direkomendasikan untuk informasi lebih lanjut.
Tanggal Rilis: 2024-03-29
Nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240326
GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20240326
Diperbarui
Driver Nvidia yang diperbarui dari 535.104.12 ke 535.161.08 di driver Proprietary dan OSS Nvidia. DLAMIs
Dihapus G4dn, G5 EC2 instans dukungan dari driver Nvidia Proprietary DLAMI.
Instans baru yang didukung untuk setiap DLAMI adalah sebagai berikut:
Pembelajaran Mendalam dengan Driver Nvidia Proprietary mendukung G3 (G3.16x tidak didukung), P3, P3dn
Pembelajaran Mendalam dengan OSS Nvidia Driver mendukung G4dn, G5, P4d, P4de, P5.
Tanggal Rilis: 2024-03-20
Nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240318
GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20240318
Ditambahkan
Ditambahkan
awscliv2di AMI di/usr/local/bin/aws2, bersamaawscliv1usr/bin/aws sebagai/pada AMI Driver Proprietary dan OSS Nvidia
Tanggal Rilis: 2024-03-14
Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240314
Diperbarui
DLAMI driver OSS Nvidia yang diperbarui dengan dukungan G4dn dan G5, berdasarkan dukungan saat ini terlihat seperti di bawah ini:
Driver Nvidia Proprietary Deep Learning Base AMI (Ubuntu 20.04) mendukung P3, P3dn, G3, G5, G4dn.
Basis Pembelajaran Mendalam OSS Nvidia Driver AMI (Ubuntu 20.04) mendukung G5, G4dn, P4, P5.
Driver OSS Nvidia DLAMIs direkomendasikan untuk digunakan untuk G5, G4dn, P4, P5.
Tanggal Rilis: 2024-02-12
Nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240208
GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20240208
Diperbarui
AWS Plugin OFI NCCL diperbarui dari 1.7.3 ke 1.7.4
Tanggal Rilis: 2024-02-01
Nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240201
GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20240201
Keamanan
Tanggal Rilis: 2023-12-04
Nama AMI
Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20231204
GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20231204
Ditambahkan
AWS Deep Learning AMI (DLAMI) dibagi menjadi dua kelompok terpisah:
DLAMI yang menggunakan Nvidia Proprietary Driver (untuk mendukung P3, P3dn, G3, G5, G4dn).
DLAMI yang menggunakan Nvidia OSS Driver untuk mengaktifkan EFA (untuk mendukung P4, P5).
Silakan merujuk ke Perubahan penting pada DLAMI untuk informasi lebih lanjut tentang pemisahan DLAMI.
AWS CLI kueri untuk di atas berada di bawah bullet point Query AMI-ID AWSCLI dengan (contoh Wilayah adalah us-east-1)
Diperbarui
EFA diperbarui dari 1.26.1 ke 1.29.0
GDRCopy diperbarui dari 2.3 ke 2.4
Tanggal Rilis: 2023-10-18
Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20231018
Diperbarui
AWS OFI NCCL Plugin diperbarui dari versi 1.7.2 ke versi 1.7.3
Direktori CUDA 12.0-12.1 yang diperbarui dengan NCCL versi 2.18.5 agar sesuai dengan CUDA 12.2
CUDA12.1 diperbarui sebagai Versi CUDA default
Diperbarui LD_LIBRARY_PATH untuk memiliki//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
Untuk pelanggan yang ingin mengubah ke versi CUDA yang berbeda, harap tentukan variabel LD_LIBRARY_PATH dan PATH yang sesuai.
Tanggal Rilis: 2023-10-02
Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20231002
Diperbarui
Driver NVIDIA diperbarui dari 535.54.03 ke 535.104.12
Driver terbaru ini memperbaiki perubahan melanggar NVMLABI yang ditemukan di versi driver 535.54.03, serta regresi driver yang ditemukan di versi 535.86.10 yang memengaruhi toolkit CUDA pada instance P5. Silakan referensi catatan rilis NVIDIA berikut untuk rincian tentang perbaikan:
Silakan referensi catatan rilis NVIDIA berikut untuk rincian tentang perbaikan:
Direktori CUDA 12.2 yang diperbarui dengan NCCL 2.18.5
EFA diperbarui dari versi 1.24.1 ke 1.26.1 terbaru
Ditambahkan
Ditambahkan CUDA12 .2 di/usr/local/cuda-12.2
Dihapus
Dukungan yang dihapus untuk CUDA 11.5 dan CUDA 11.6
Tanggal Rilis: 2023-09-26
Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20230926
Ditambahkan
Menambahkan perubahan net.naming-scheme untuk memperbaiki masalah penamaan antarmuka jaringan yang tidak terduga (tautan
) yang terlihat di P5. Perubahan ini dilakukan dengan menyetel net.naming-scheme=v247 dalam argumen boot linux di file/etc/default/grub
Tanggal Rilis: 2023-08-30
Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20230830
Diperbarui
Diperbarui aws-ofi-nccl plugin dari v1.7.1 untuk v1.7.2
Tanggal Rilis: 2023-08-11
Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20230811
Ditambahkan
AMI ini sekarang menyediakan dukungan untuk fungsionalitas pelatihan Multi-node pada P5 dan semua instans yang didukung sebelumnya EC2 .
Untuk EC2 contoh P5, NCCL 2.18 direkomendasikan untuk digunakan dan telah ditambahkan ke CUDA12 .0, dan .1. CUDA12
Dihapus
Dukungan yang dihapus untuk CUDA11 .3 dan CUDA11 .4.
Tanggal Rilis: 2023-08-04
Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20230804
Diperbarui
Diperbarui AWS plugin OFI NCCL ke v1.7.1
Membuat CUDA11 .8 sebagai default karena PyTorch 2.0 mendukung 11.8 dan untuk EC2 instance P5, disarankan untuk menggunakan >= .8 CUDA11
Diperbarui LD_LIBRARY_PATH untuk memiliki//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
Untuk versi cuda yang berbeda, harap tentukan LD_LIBRARY_PATH yang sesuai.
Diperbarui CUDA 12.0, 12.1 direktori dengan NCCL 2.18.3
Tetap
Memperbaiki masalah pemuatan paket Nvidia Fabric Manager (FM) yang disebutkan di Tanggal Rilis sebelumnya 2023-07-19.
Tanggal Rilis: 2023-07-19
Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20230719
Diperbarui
EFA diperbarui dari 1.22.1 ke 1.24.1
Driver Nvidia diperbarui dari 525.85.12 ke 535.54.03
Ditambahkan
Menambahkan perubahan c-state untuk menonaktifkan status idle prosesor dengan menyetel c-state maks ke C1. Perubahan ini dilakukan dengan menyetel `intel_idle.max_cstate=1 processor.max_cstate=1` dalam argumen boot linux di file/etc/default/grub
AWS EC2 Dukungan instance P5:
Ditambahkan P5 dukungan EC2 instance untuk alur kerja menggunakan node/instance tunggal. Dukungan multi-node (misalnya untuk pelatihan multi-node) menggunakan EFA (Elastic Fabric Adapter) dan plugin AWS OFI NCCL akan ditambahkan dalam rilis mendatang.
Silakan gunakan CUDA> = 11.8 untuk kinerja optimal.
Masalah yang Diketahui: Paket Nvidia Fabric Manager (FM) membutuhkan waktu untuk memuat pada P5, pelanggan harus menunggu selama 2-3 menit hingga FM dimuat setelah meluncurkan instans P5. Untuk memeriksa apakah FM dimulai, jalankan perintah sudo systemctl is-active nvidia-fabricmanager, itu harus kembali aktif sebelum memulai alur kerja apa pun. Ini akan ditingkatkan dalam rilis mendatang.
Tanggal Rilis: 2023-05-19
Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20230519
Diperbarui
EFA diperbarui ke 1.22.1 terbaru
Versi NCCL yang diperbarui untuk CUDA 12.1 hingga 2.17.1
Ditambahkan
Ditambahkan CUDA12 .1 di/usr/local/cuda-12.1
Menambahkan dukungan untuk NVIDIA Data Center GPU Monitor (DCGM) melalui paket
datacenter-gpu-manager Anda dapat memeriksa status layanan ini melalui kueri berikut: sudo systemctl status nvidia-dcgm
Toko Ephemeral NVMe Instance sekarang secara otomatis dipasang ke EC2 instance yang didukung dan penyimpanan dapat diakses di folder//. opt/dlami/nvme Anda dapat memeriksa atau memodifikasi layanan ini dengan cara berikut:
Periksa status NVMe layanan: sudo systemctl status dlami-nvme
Untuk mengakses atau memodifikasi layanan:/opt/aws/dlami/bin/nvme_ephemeral_drives.sh
NVMe volume menyediakan solusi penyimpanan tercepat dan paling efisien untuk alur kerja throughput tinggi yang memerlukan kinerja IOPS. Toko NVMe instans sementara disertakan dengan biaya instans, sehingga tidak ada biaya tambahan yang dikeluarkan dengan layanan ini.
NVMe penyimpanan instance hanya akan dipasang pada EC2 instance yang mendukungnya. Untuk informasi tentang EC2 instance dengan penyimpanan instans yang NVMe didukung, lihat Volume penyimpanan instans yang tersedia dan memvalidasi yang NVMe didukung.
Untuk meningkatkan kinerja disk dan mengurangi penalti penulisan pertama, Anda dapat menginisialisasi penyimpanan instans (perhatikan, proses ini mungkin memakan waktu berjam-jam tergantung pada jenis instans) - Inisialisasi volume penyimpanan instans pada EC2 instance EC2
CATATAN: penyimpanan NVMe instance dipasang pada instance dan tidak terpasang ke jaringan seperti EBS. Data pada NVMe volume ini mungkin hilang saat reboot atau penghentian instance Anda.
Tanggal Rilis: 2023-04-17
Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20230414
Diperbarui
Nama DLAMI yang diperbarui AWS dari Basis Pembelajaran Mendalam AMI GPU CUDA 11 (Ubuntu 20.04) $ {YYYY-MM-DD} ke GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) $ {YYYY-MM-DD}
Harap dicatat bahwa kami akan mendukung DLAMI terbaru dengan nama AMI lama selama sebulan dari rilis ini untuk dukungan apa pun yang diperlukan. Pelanggan dapat memperbarui paket OS mereka apt-get update && apt-get upgrade untuk menggunakan patch keamanan.
Jalur plugin AWS OFI NCCL yang diperbarui dari/-ofi-nccl/ usr/local/cuda-xx.x/efa/ to /opt/aws
NCCL yang diperbarui ke cabang GIT kustom
v2.16.2, ditulis bersama oleh AWS dan tim NCCL untuk semua versi CUDA. Ini bekerja lebih baik pada AWS infrastruktur.
Ditambahkan
Ditambahkan CUDA12 .0 di/usr/local/cuda-12.0
Ditambahkan AWS FSx
Ditambahkan dukungan untuk Python versi 3.9 di/3.9 usr/bin/python
Perhatikan bahwa perubahan ini tidak menggantikan Python sistem default, python3 masih akan mengarahkan sistem Python3.8.
Python3.9 dapat diakses menggunakan perintah berikut:
/usr/bin/python3.9 python3.9
Dihapus
Tanggal Rilis: 2022-05-25
Nama AMI: Basis AWS Pembelajaran Mendalam AMI GPU CUDA 11 (Ubuntu 20.04) 20220523
Diperbarui
Rilis ini menambahkan dukungan untuk EC2 contoh baru p4de.24xlarge.
Diperbarui aws-efa-installer ke versi 1.15.2
Diperbarui aws-ofi-nccl ke versi 1.3.0-aws yang menyertakan topologi untuk p4de.24xlarge.
Tanggal Rilis: 2022-03-25
Nama AMI: Basis AWS Pembelajaran Mendalam AMI GPU CUDA 11 (Ubuntu 20.04) 20220325
Diperbarui
Diperbarui versi EFA dari 1.15.0 ke 1.15.1
Tanggal Rilis: 2022-03-17
Nama AMI: Basis AWS Pembelajaran Mendalam AMI GPU CUDA 11 (Ubuntu 20.04) 20220323
Ditambahkan
Rilis pertama