Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
AWS Pembelajaran Mendalam AMI GPU PyTorch 2.5 (Amazon Linux 2023)
Untuk bantuan memulai, lihatMemulai dengan DLAMI.
Format nama AMI
Pembelajaran Mendalam OSS Nvidia Driver AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) $ {YYYY-MM-DD}
EC2 Contoh yang didukung
Silakan lihat Perubahan penting pada DLAMI.
Pembelajaran Mendalam dengan OSS Nvidia Driver mendukung G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
AMI meliputi yang berikut:
AWS Layanan yang Didukung: EC2
Sistem Operasi: Amazon Linux 2023
Arsitektur Komputasi: x86
NVIDIA CUDA12 .4 tumpukan:
Jalur instalasi CUDA, NCCL dan cudDN:/-12.4/usr/local/cuda
-
CUDA standar: 12.4
JALAN/usr/local/cuda points to /usr/local/cuda-12.4/
-
Diperbarui di bawah env vars:
LD_LIBRARY_PATH memiliki/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
PATH untuk memiliki/usr/local/cuda/bin/:/usr/local/cuda/include/
Versi NCCL yang dikompilasi untuk 12.4:2.21.5
Lokasi Tes NCCL:
all_reduce, all_gather dan reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
-
Untuk menjalankan pengujian NCCL, LD_LIBRARY_PATH sudah diperbarui dengan jalur yang diperlukan.
Umum sudah PATHs ditambahkan ke LD_LIBRARY_PATH:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
-
LD_LIBRARY_PATH diperbarui dengan jalur versi CUDA
/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib
Pemasang EFA: 1.38.0
Nvidia GDRCopy: 2.4.1
AWS OFI NCCL: 1.13.2-aws
AWS OFI NCCL sekarang mendukung beberapa versi NCCL dengan build tunggal
Jalur instalasi:/ditambahkan ke opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib LD_LIBRARY_PATH.
Jalur pengujian untuk dering, message_transfer:/opt/aws-ofi-nccl/tests
Versi Python: 3.11
Python:/opt/conda/envs/pytorch/bin/python
Pengemudi NVIDIA: 560.35.03
AWS CLI v2 di/usr/bin/aws
Jenis volume EBS: gp3
NVMe Lokasi Penyimpanan Instance (pada EC2 Instans yang Didukung):/opt/dlami/nvme
Kueri AMI-ID dengan Parameter SSM (contoh Wilayah adalah us-east-1):
Pengemudi OSS Nvidia:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.5-amazon-linux-2023/latest/ami-id \ --query "Parameter.Value" \ --output text
Kueri AMI-ID dengan AWSCLI (contoh Wilayah adalah us-east-1):
Pengemudi OSS Nvidia:
aws ec2 describe-images --region
us-east-1
\ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5.? (Amazon Linux 2023) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
Pemberitahuan
Instans P5/P5e:
DeviceIndex unik untuk masing-masing NetworkCard, dan harus berupa bilangan bulat non-negatif kurang dari batas per. ENIs NetworkCard Pada P5, jumlah ENIs per NetworkCard adalah 2, yang berarti bahwa satu-satunya nilai yang valid untuk DeviceIndex adalah 0 atau 1. Di bawah ini adalah contoh perintah peluncuran instance EC2 P5 menggunakan awscli yang menunjukkan NetworkCardIndex dari nomor 0-31 dan DeviceIndex sebagai 0 untuk antarmuka pertama dan DeviceIndex sebagai 1 untuk istirahat 31 antarmuka.
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
Versi kernel disematkan menggunakan perintah:
sudo dnf versionlock kernel*
Kami menyarankan pengguna untuk menghindari memperbarui versi kernel mereka (kecuali karena patch keamanan) untuk memastikan kompatibilitas dengan driver yang diinstal dan versi paket. Jika pengguna masih ingin memperbarui, mereka dapat menjalankan perintah berikut untuk melepas pin versi kernel mereka:
sudo dnf versionlock delete kernel* sudo dnf update -y
Untuk setiap versi baru DLAMI, kernel kompatibel terbaru yang tersedia digunakan.
Tanggal Rilis: 2025-02-17
Nama AMI: Driver OSS Nvidia Pembelajaran Mendalam AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250216
Diperbarui
Diperbarui NVIDIA Container Toolkit dari versi 1.17.3 ke versi 1.17.4
Silakan lihat halaman catatan rilis di sini untuk informasi lebih lanjut: https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
Di Container Toolkit versi 1.17.4, pemasangan pustaka compat CUDA sekarang dinonaktifkan. Untuk memastikan kompatibilitas dengan beberapa versi CUDA pada alur kerja kontainer, pastikan Anda memperbarui LD_LIBRARY_PATH Anda untuk menyertakan pustaka kompatibilitas CUDA Anda seperti yang ditunjukkan dalam tutorial Jika Anda menggunakan lapisan kompatibilitas CUDA.
Dihapus
Pustaka ruang pengguna yang dihapus cuobj dan nvdisasm disediakan oleh toolkit NVIDIA CUDA untuk mengatasi yang CVEs ada di Buletin Keamanan NVIDIA CUDA Toolkit
untuk 18 Februari 2025
Tanggal Rilis: 2025-01-08
Nama AMI: Driver OSS Nvidia Pembelajaran Mendalam AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20250107
Ditambahkan
Menambahkan Support untuk instance G4dn
.
Tanggal Rilis: 2024-11-21
Nama AMI: Driver OSS Nvidia Pembelajaran Mendalam AMI GPU PyTorch 2.5.1 (Amazon Linux 2023) 20241120
Ditambahkan
Rilis awal Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.5 untuk Amazon Linux 2023
Masalah yang Diketahui
DLAMI ini tidak mendukung instans G4dn dan G5 saat ini. EC2 AWS menyadari ketidakcocokan yang dapat mengakibatkan kegagalan inisialisasi CUDA, yang memengaruhi keluarga instans G4dn dan G5 saat menggunakan driver NVIDIA open source bersama dengan kernel Linux versi 6.1 atau yang lebih baru. Masalah ini memengaruhi distribusi Linux seperti Amazon Linux 2023, Ubuntu 22.04 atau yang lebih baru, atau SUSE Linux Enterprise Server 15 SP6 atau yang lebih baru, antara lain.