AWS Pembelajaran Mendalam AMI GPU PyTorch 2.6 (Ubuntu 22.04) - AWS Deep Learning AMIs

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS Pembelajaran Mendalam AMI GPU PyTorch 2.6 (Ubuntu 22.04)

Untuk bantuan memulai, lihatMemulai dengan DLAMI.

Format nama AMI

  • Pembelajaran Mendalam OSS Nvidia Driver AMI GPU 2.6 PyTorch . $ {VERSI TAMBALAN} (Ubuntu 22.04) $ {YYYY-MM-DD}

EC2 Contoh yang didukung

  • Silakan lihat Perubahan penting pada DLAMI.

  • Pembelajaran Mendalam dengan OSS Nvidia Driver mendukung G4dn, G5, G6, Gr6, P4, P4de, P5, P5e, P5en.

AMI meliputi yang berikut:

  • AWS Layanan yang Didukung: Amazon EC2

  • Sistem Operasi: Ubuntu 22.04

  • Arsitektur Komputasi: x86

  • Python:/opt/pytorch/bin/python

  • Pengemudi NVIDIA:

    • Pengemudi OSS Nvidia: 570.86.15

  • Tumpukan NVIDIA CUDA12 .1:

    • Jalur instalasi CUDA, NCCL dan cudDN:/-12.6/usr/local/cuda

    • CUDA standar: 12.6

      • JALAN/usr/local/cuda points to /usr/local/cuda-12.6/

      • Diperbarui di bawah env vars:

        • LD_LIBRARY_PATH memiliki/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86_64-linux/lib

        • PATH untuk memiliki/usr/local/cuda/bin/:/usr/local/cuda/include/

    • Sistem terkompilasi Versi NCCL hadir di/usr/local/cuda/: 2.24.3

    • PyTorch Versi NCCL yang dikompilasi dari lingkungan PyTorch conda: 2.21.5

  • Lokasi Tes NCCL:

    • all_reduce, all_gather dan reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

    • Untuk menjalankan pengujian NCCL, LD_LIBRARY_PATH sudah diperbarui dengan jalur yang diperlukan.

    • Umum sudah PATHs ditambahkan ke LD_LIBRARY_PATH:

    • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

    • LD_LIBRARY_PATH diperbarui dengan jalur versi CUDA

    • /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86_64-linux/lib

  • Pemasang EFA: 1.38.0

  • Nvidia GDRCopy: 2.4.1

  • Mesin Transformer Nvidia: v1.11.0

  • AWS OFI NCCL: 1.13.2-aws

    • Jalur instalasi:/ditambahkan ke opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib LD_LIBRARY_PATH.

    • Catatan: PyTorch paket dilengkapi dengan plugin AWS OFI NCCL yang ditautkan secara dinamis sebagai paket paket conda juga dan PyTorch akan menggunakan aws-ofi-nccl-dlc paket itu alih-alih sistem OFI NCCL. AWS

  • AWS CLI v2 sebagai aws2 dan AWS CLI v1 sebagai aws

  • Jenis volume EBS: gp3

  • Versi Python: 3.11

  • Kueri AMI-ID dengan Parameter SSM (contoh Wilayah adalah us-east-1):

    • Pengemudi OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.6-ubuntu-22.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Kueri AMI-ID dengan AWSCLI (contoh Wilayah adalah us-east-1):

    • Pengemudi OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.6.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Pemberitahuan

PyTorch Penghentian Saluran Anaconda

Dimulai dengan PyTorch 2.6, Pytorch telah menghentikan dukungan untuk Conda (lihat pengumuman resmi). Akibatnya, Pytorch 2.6 dan di atasnya akan beralih menggunakan Lingkungan Virtual Python. Tuntuk mengaktifkan pytorch venv, silakan gunakan sumber/opt/pytorch/bin/activate

Instans P5/P5e:

  • DeviceIndex unik untuk masing-masing NetworkCard, dan harus berupa bilangan bulat non-negatif kurang dari batas per. ENIs NetworkCard Pada P5, jumlah ENIs per NetworkCard adalah 2, yang berarti bahwa satu-satunya nilai yang valid untuk DeviceIndex adalah 0 atau 1. Di bawah ini adalah contoh perintah peluncuran instance EC2 P5 menggunakan awscli yang menunjukkan NetworkCardIndex dari nomor 0-31 dan DeviceIndex sebagai 0 untuk antarmuka pertama dan DeviceIndex sebagai 1 untuk istirahat 31 antarmuka.

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • Versi kernel disematkan menggunakan perintah: 

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • Kami menyarankan pengguna untuk menghindari memperbarui versi kernel mereka (kecuali karena patch keamanan) untuk memastikan kompatibilitas dengan driver yang diinstal dan versi paket. Jika pengguna masih ingin memperbarui, mereka dapat menjalankan perintah berikut untuk melepas pin versi kernel mereka: 

    echo linux-aws install | sudo dpkg —set-selections echo linux-headers-aws install | sudo dpkg —set-selections echo linux-image-aws install | sudo dpkg —set-selections apt-get upgrade -y
  • Untuk setiap versi baru DLAMI, kernel kompatibel terbaru yang tersedia digunakan.

Tanggal Rilis: 2025-02-21

Nama AMI: Driver OSS Nvidia Pembelajaran Mendalam AMI GPU PyTorch 2.6.0 (Ubuntu 22.04) 20250220

Ditambahkan

  • Rilis awal seri Deep Learning AMI GPU PyTorch 2.6 (Ubuntu 22.04). Termasuk pytorch lingkungan virtual Python (sumber/opt/pytorch/bin/activate), dilengkapi dengan NVIDIA Driver R570, CUDA = 12.6, cuDNN = 9.7, NCCL = 2.21.5, dan EFA = 1.38.0. PyTorch