Format nama AMI EC2 Contoh yang didukung Konten AMI Pemberitahuan Tanggal Rilis: 2025-06-03

AWS Pembelajaran Mendalam OSS AMI GPU PyTorch 2.7 (Ubuntu 22.04)

Untuk bantuan memulai, lihatMemulai dengan DLAMI.

Format nama AMI

Pembelajaran Mendalam OSS Nvidia Driver AMI GPU PyTorch 2.7 (Ubuntu 22.04) $ {YYYY-MM-DD}

EC2 Contoh yang didukung

Silakan lihat Perubahan penting pada DLAMI
G4dn, G5, G5, Gr6, P4, P4DE, P5, P5e, P5en, P6-B200

AMI meliputi yang berikut:

AWS Layanan yang Didukung: Amazon EC2
Sistem Operasi: Ubuntu 22.04
Arsitektur Komputasi: x86
Kernel Linux: 6.8
Pengemudi NVIDIA: 570.133.20
Tumpukan NVIDIA CUDA 12.8:
- Direktori instalasi CUDA, NCCL dan cudDN:/-12.8/usr/local/cuda
- Lokasi Tes NCCL:
  - all_reduce, all_gather, dan reduce_scatter:
    /usr/local/cuda-12.8/efa/test-cuda-12.8/
  - Untuk menjalankan pengujian NCCL, LD_LIBRARY_PATH sudah diperbarui dengan jalur yang diperlukan.
    
    Umum sudah PATHs ditambahkan ke LD_LIBRARY_PATH:
    /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/amazon/ofi-nccl/lib:/usr/local/lib:/usr/lib
    LD_LIBRARY_PAT diperbarui dengan jalur versi CUDA:
    /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib
- Versi NCCL yang dikompilasi:
  - Untuk direktori CUDA 12.8, dikompilasi NCCL Versi 2.26.2+ .8 CUDA12
- CUDA standar: 12.8
  - PATH/usr/local/cudamenunjuk ke CUDA 12.8
  - Diperbarui di bawah env vars:
    
    LD_LIBRARY_PATH memiliki/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda/targets/x86_64-linux/lib
    PATH untuk memiliki/usr/local/cuda/bin/:/usr/local/cuda/include/
Pemasang EFA: 1.40.0
Nvidia GDRCopy: 2.5
Mesin Transformator Nvidia: 1.11.0
AWS OFI NCCL: 1.14.2-aws
- Jalur instalasi:/ditambahkan ke opt/amazon/ofi-nccl/. Path /opt/amazon/ofi-nccl/lib LD_LIBRARY_PATH
AWS CLI v2 di/usr/local/bin/aws
Jenis volume EBS: gp3
Toolkit wadah Nvidia: 1.17.7
- Perintah versi: nvidia-container-cli -V
Docker: 28.2.2
Python:/3.12 usr/bin/python

Kueri AMI-ID dengan Parameter SSM (contoh wilayah adalah us-east-1):


aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.7-ubuntu-22.04/latest/ami-id \
    --query "Parameter.Value" \
    --output text

Kueri AMI-ID dengan AWSCLI (contoh wilayah adalah us-east-1):


aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.7 (Ubuntu 22.04) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Pemberitahuan

Perhatian Flash

Perhatian flash belum memiliki rilis resmi untuk PyTorch 2.7. Untuk alasan ini, sementara dihapus dari AMI ini. Setelah rilis resmi dibuat untuk PyTorch 2.7, kami akan memasukkannya ke dalam AMI ini.
Tanpa perhatian kilat, mesin transformator default menggunakan perhatian cuDNN yang menyatu. Saat ini ada masalah yang diketahui dengan perhatian yang menyatu dan Blackwell GPUs, seperti contoh P6-B200.
- “Dengan kemampuan komputasi sm10.0 (BlackWell-Architecture) GPUs, FP8 tipe data dengan perhatian produk titik berskala berisi kebuntuan yang menyebabkan kernel menggantung dalam beberapa keadaan, seperti ketika ukuran masalah besar atau GPU menjalankan beberapa kernel secara bersamaan. Perbaikan direncanakan untuk rilis di masa depan.” [cuDNN 9.10.0 catatan rilis]
- Untuk pengguna yang ingin menjalankan instance P6-B200 dengan FP8 data dan perhatian produk titik berskala, harap pertimbangkan untuk menginstal perhatian flash secara manual.

Instans P6-B200

Instans P6-B200 memerlukan CUDA versi 12.8 atau lebih tinggi dan driver NVIDIA 570 atau driver yang lebih baru.
P6-B200 berisi 8 kartu antarmuka jaringan dan dapat diluncurkan menggunakan perintah CLI AWS berikut:


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    ....
    ....
    ....
    "NetworkCardIndex=7,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Instans P5/P5e

DeviceIndex unik untuk masing-masing NetworkCard dan harus berupa bilangan bulat non-negatif kurang dari batas per. ENIs NetworkCard Pada P5, jumlah ENIs per NetworkCard adalah 2, yang berarti bahwa satu-satunya nilai yang valid untuk DeviceIndex adalah 0 atau 1. Di bawah ini adalah contoh perintah peluncuran instance EC2 P5 menggunakan awscli yang menunjukkan NetworkCardIndex angka 0-31 dan DeviceIndex sebagai 0 untuk antarmuka pertama dan 1 untuk 31 antarmuka yang tersisa.


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instanace,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces ""NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
    ....
    ....
    ....
    "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

Kernel

Versi kernel disematkan menggunakan perintah:


echo linux-aws hold | sudo dkpg -set-selections
echo linux-headers-aws hold | sudo dpkg -set-selections
echo linux-image-aws hold | sudo dpkg -set-selections

Kami menyarankan pengguna untuk menghindari memperbarui versi kernel mereka (kecuali karena patch keamanan) untuk memastikan kompatibilitas dengan driver yang diinstal dan versi paket. Jika pengguna masih ingin memperbarui, mereka dapat menjalankan perintah berikut untuk melepas pin versi kernel mereka:
```
echo linux-aws install | sudo dpkg -set-selections
echo linux-headers-aws install | sudo dpkg -set-selections
echo linux-image-aws install | sudo dpkg -set-selections
apt-get upgrade -y
```
Untuk setiap versi baru DLAMI, kernel kompatibel terbaru yang tersedia digunakan.

PyTorch Penghentian Saluran Anaconda

Dimulai dengan PyTorch 2.6, PyTorch telah menghentikan dukungan untuk Conda (lihat pengumuman resmi). Akibatnya, PyTorch 2.6 ke atas akan beralih menggunakan Lingkungan Virtual Python. Untuk mengaktifkan PyTorch venv, gunakan sumber/opt/pytorch/bin/activate

Tanggal Rilis: 2025-06-03

Nama AMI: Driver OSS Nvidia Pembelajaran Mendalam AMI GPU PyTorch 2.7 (Ubuntu 22.04) 20250602

Ditambahkan

Rilis awal seri Deep Learning AMI GPU PyTorch 2.7 (Ubuntu 22.04). Termasuk pytorch lingkungan virtual Python (sumber/opt/pytorch/bin/activate) yang dilengkapi dengan NVIDIA Driver R570, CUDA = 12.8, cuDNN = 9.10, NCCL = 2.26.5, dan EFA = 1.40.0. PyTorch

Masalah yang Diketahui

“Dengan kemampuan komputasi sm10.0 (BlackWell-Architecture) GPUs, FP8 tipe data dengan perhatian produk titik berskala berisi kebuntuan yang menyebabkan kernel menggantung dalam beberapa keadaan, seperti ketika ukuran masalah besar atau GPU menjalankan beberapa kernel secara bersamaan. Perbaikan direncanakan untuk rilis di masa depan.” [cuDNN 9.10.0 catatan rilis]
- Untuk pengguna yang ingin menjalankan instance P6-B200 dengan FP8 data dan perhatian produk titik berskala, harap pertimbangkan untuk menginstal perhatian flash secara manual.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

GPU PyTorch 2.7 (Amazon Linux 2023)

GPU PyTorch 2.6 (Amazon Linux 2023)