AWS GPU AMI ARM64 Dasar Pembelajaran Mendalam (Ubuntu 22.04) - AWS Deep Learning AMIs

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS GPU AMI ARM64 Dasar Pembelajaran Mendalam (Ubuntu 22.04)

Untuk bantuan memulai, lihatMemulai dengan DLAMI.

Format nama AMI

  • ARM64 Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) $ {YYYY-MM-DD}

EC2 Contoh yang didukung

  • G5g, P6e- GB2 00 (CUDA> = 12.8 didukung pada P6e- 00) GB2

AMI meliputi yang berikut:

  • AWS Layanan yang Didukung: Amazon EC2

  • Sistem Operasi: Ubuntu 22.04

  • Arsitektur Komputasi: ARM64

  • Versi terbaru yang tersedia diinstal untuk paket-paket berikut:

    • Kernel Linux: 6. 8

    • FSx Kilau

    • Docker

    • AWS CLI v2 di/usr/bin/aws

    • NVIDIA DCGM

    • Toolkit wadah Nvidia:

      • Perintah versi: nvidia-container-cli -V

    • NVIDIA-Docker2:

      • Perintah versi: versi nvidia-docker

  • Pengemudi NVIDIA: 570.158.01

  • NVIDIA CUDA 12.4, 12,5, 12.6, 12.8 tumpukan:

    • Direktori instalasi CUDA, NCCL dan cudDN:/-xx.x/ usr/local/cuda

      • Contoh:/usr/local/cuda-12.8/ , /usr/local/cuda-12.8/

    • Versi NCCL yang dikompilasi:

      • Untuk direktori CUDA 12.4, dikompilasi NCCL Versi 2.22.3+ .4 CUDA12

      • Untuk direktori CUDA 12.5, dikompilasi NCCL Versi 2.22.3+ .5 CUDA12

      • Untuk direktori CUDA 12.6, dikompilasi NCCL Versi 2.24.3+ .6 CUDA12

      • Untuk direktori CUDA 12.8, dikompilasi NCCL Versi 2.27.5+ .8 CUDA12

    • CUDA standar: 12.8

      • PATH/usr/local/cudamenunjuk ke CUDA 12.8

      • Diperbarui di bawah env vars:

        • LD_LIBRARY_PATH memiliki/64 usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib

        • PATH untuk memiliki/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • Untuk versi CUDA yang berbeda, harap perbarui LD_LIBRARY_PATH yang sesuai.

  • Pemasang EFA: 1.42.0

  • Nvidia GDRCopy: 2.5.1

  • AWS Plugin OFI NCCL dilengkapi dengan installer EFA

    • opt/amazon/ofi-nccl/lib and /opt/amazon/ofi-nccl/efaPaths/ditambahkan ke LD_LIBRARY_PATH.

  • AWS CLI v2 di/usr/local/bin/aws2 dan AWS CLI v1 di/usr/bin/aws

  • Jenis volume EBS: gp3

  • Python:/3.10 usr/bin/python

  • Kueri AMI-ID dengan Parameter SSM (contoh Wilayah adalah us-east-1):

    SSM_PARAMETER=base-oss-nvidia-driver-gpu-ubuntu-22.04/latest/ami-id \ aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/arm64/$SSM_PARAMETER \ --query "Parameter.Value" \ --output text
  • Kueri AMI-ID dengan AWSCLI (contoh Wilayah adalah us-east-1):

    aws ec2 describe-images --region us-east-1 \ --owners amazon --filters 'Name=name,Values=Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
P6e- 00 contoh GB2

Instans P6e- GB2 00 berisi 17 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces \ "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=interface" \ "NetworkCardIndex=1,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=2,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=3,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=4,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=5,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=6,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=7,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=8,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=9,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=10,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=11,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=12,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=13,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=14,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=15,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only" \ "NetworkCardIndex=16,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa-only"

Pemberitahuan

Toolkit Kontainer NVIDIA 1.17.4

Dalam Container Toolkit versi 1.17.4 pemasangan pustaka compat CUDA sekarang dinonaktifkan. Untuk memastikan kompatibilitas dengan beberapa versi CUDA pada alur kerja kontainer, pastikan Anda memperbarui LD_LIBRARY_PATH Anda untuk menyertakan pustaka kompatibilitas CUDA Anda seperti yang ditunjukkan dalam tutorial Jika Anda menggunakan lapisan kompatibilitas CUDA.

Dukungan multi ENI
#cloud-config # apply network config on every boot and hotplug event updates: network: when: ['boot', 'hotplug']

Kebijakan Support

AMIs Komponen versi AMI seperti CUDA ini dapat dihapus dan diubah berdasarkan kebijakan dukungan kerangka kerja atau untuk mengoptimalkan kinerja untuk wadah pembelajaran mendalam atau untuk mengurangi ukuran AMI di rilis mendatang, tanpa pemberitahuan sebelumnya. Kami menghapus versi CUDA dari AMIs jika tidak digunakan oleh versi kerangka kerja yang didukung.

Kernel
  • Versi kernel disematkan menggunakan perintah:

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • Kami menyarankan agar pengguna menghindari memperbarui versi kernel mereka (kecuali karena patch keamanan) untuk memastikan kompatibilitas dengan driver dan versi paket yang diinstal. Jika pengguna masih ingin memperbarui, mereka dapat menjalankan perintah berikut untuk melepas pin versi kernel mereka:

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • Untuk setiap versi baru DLAMI, kernel kompatibel terbaru yang tersedia digunakan.

Tanggal Rilis: 2025-07-04

Nama AMI: ARM64 Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250704

Diperbarui

  • Ditambahkan dukungan untuk EC2 contoh P6e- GB2 00. Harap dicatat bahwa CUDA>=12.8 didukung pada P6e- 00 GB2

  • Tambahkan EFA 1.42.0

  • Driver Nvidia yang ditingkatkan dari versi 570.133.20 ke 570.158.01

  • Tumpukan CUDA 12.8 yang ditingkatkan dengan NCCL 2.27.5

Tanggal Rilis: 2025-04-24

Nama AMI: ARM64 Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250424

Diperbarui

Tanggal Rilis: 2025-03-03

Nama AMI: ARM64 Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250303

Diperbarui

  • Driver Nvidia dari 550.144.03 ke 570.86.15

  • CUDA default diubah dari CUDA12 .1 menjadi .6 CUDA12

Ditambahkan

  • Direktori CUDA 12.4 dengan dikompilasi NCCL Versi CUDA12 2.22.3+ .4 dan cuDNN 9.7.1.26

  • Direktori CUDA 12.5 dengan dikompilasi NCCL Versi CUDA12 2.22.3+ .5 dan cuDNN 9.7.1.26

  • Direktori CUDA 12.6 dengan dikompilasi NCCL Versi CUDA12 2.24.3+ .6 dan cuDNN 9.7.1.26

  • Direktori CUDA 12.8 dengan dikompilasi NCCL Versi CUDA12 2.25.1+ .8 dan cuDNN 9.7.1.26

Dihapus

  • Direktori CUDA 12.1 dan 12.2

Tanggal Rilis: 2025-02-17

Nama AMI: ARM64 Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250214

Diperbarui

Dihapus

Tanggal Rilis: 2025-01-17

Nama AMI: ARM64 Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250117

Diperbarui

Tanggal Rilis: 2024-10-23

Nama AMI: ARM64 Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20241023

Diperbarui

Tanggal Rilis: 2024-06-06

Nama AMI: ARM64 Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240606

Diperbarui

  • Diperbarui versi driver Nvidia ke 535.183.01 dari 535.161.08

Tanggal Rilis: 2024-05-15

Nama AMI: ARM64 Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20240514

Ditambahkan

  • Rilis awal dari Deep Learning ARM64 Base OSS DLAMI untuk Ubuntu 22.04