AWS GPU AMI Dasar Pembelajaran Mendalam (Ubuntu 20.04) - AWS Deep Learning AMIs

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS GPU AMI Dasar Pembelajaran Mendalam (Ubuntu 20.04)

Pemberitahuan Keluar dari Support

  • Ubuntu Linux 20.04 LTS mencapai akhir jendela LTS lima tahun pada 31 Mei 2025 dan tidak akan lagi didukung oleh vendornya. Akibatnya, AWS Deep Learning Base GPU AMI (Ubuntu 20.04) tidak akan memiliki pembaruan setelah 31 Mei 2025. Rilis sebelumnya akan terus tersedia. Harap dicatat bahwa AMI apa pun yang dirilis secara publik akan dihentikan EC2 setelah 2 tahun dari tanggal pembuatannya. Silakan merujuk ke Menghentikan Amazon EC2 AMI untuk informasi lebih lanjut.

  • Selama 3 bulan, hingga 31 Agustus 2025, dukungan hanya akan diberikan untuk masalah fungsionalitas (bukan tambalan keamanan).

  • Pengguna Ubuntu 20.04 DLAMI harus pindah AWS ke Deep Learning Base GPU AMI (Ubuntu 22.04) atau AWS Deep Learning Base GPU AMI (Ubuntu 24.04). Atau, AWS Deep Learning Base AMI (Amazon Linux 2023) dapat digunakan.

Untuk bantuan memulai, lihatMemulai dengan DLAMI.

Format nama AMI

  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) $ {YYYY-MM-DD}

  • GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) $ {YYYY-MM-DD}

EC2 Contoh yang didukung

  • Silakan lihat Perubahan penting pada DLAMI.

  • Pembelajaran Mendalam dengan OSS Nvidia Driver mendukung G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en

  • Pembelajaran Mendalam dengan Driver Nvidia Proprietary mendukung G3 (G3.16x tidak didukung), P3, P3dn

AMI meliputi yang berikut:

  • AWS Layanan yang Didukung: Amazon EC2

  • Sistem Operasi: Ubuntu 20.04

  • Arsitektur Komputasi: x86

  • Versi terbaru yang tersedia diinstal untuk paket-paket berikut:

    • Kernel Linux 5.15

    • FSx Kilau

    • Docker

    • AWS CLI v2 di/usr/local/bin/aws2 dan AWS CLI v1 di/usr/bin/aws

    • NVIDIA DCGM

    • Toolkit wadah Nvidia:

      • Perintah versi: nvidia-container-cli -V

    • NVIDIA-Docker2:

      • Perintah versi: versi nvidia-docker

  • Pengemudi NVIDIA:

    • Pengemudi OSS Nvidia: 550.163.01

    • Driver Nvidia eksklusif: 550.163.01

  • NVIDIA CUDA 11.7, 12.1-12.4 tumpukan:

    • Direktori instalasi CUDA, NCCL dan cudDN:/-xx.x/ usr/local/cuda

      • Contoh:/usr/local/cuda-12.1/

    • Versi NCCL yang dikompilasi: 2.22.3+ .4 CUDA12

    • CUDA standar: 12.1

      • PATH/usr/local/cudamenunjuk ke CUDA 12.1

      • Diperbarui di bawah env vars:

        • LD_LIBRARY_PATH memiliki/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • PATH untuk memiliki/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/

        • Untuk versi CUDA yang berbeda, harap perbarui LD_LIBRARY_PATH yang sesuai.

    • Lokasi Tes NCCL:

      • all_reduce, all_gather dan reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

      • Untuk menjalankan pengujian NCCL, LD_LIBRARY_PATH harus melewati pembaruan di bawah ini.

        • Umum sudah PATHs ditambahkan ke LD_LIBRARY_PATH:

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • Untuk versi CUDA yang berbeda, harap perbarui LD_LIBRARY_PATH yang sesuai.

  • Pemasang EFA: 1.39.0

  • Nvidia GDRCopy: 2.4

  • AWS Plugin OFI NCCL: diinstal sebagai bagian dari Installer-AWS EFA

    • AWS OFI NCCL sekarang mendukung beberapa versi NCCL dengan build tunggal

    • Jalur instalasi:/ditambahkan ke opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib LD_LIBRARY_PATH.

    • Jalur pengujian untuk dering, message_transfer:/opt/aws-ofi-nccl/tests

  • Jenis volume EBS: gp3

  • Python:/3.9 usr/bin/python

  • NVMe Lokasi Penyimpanan Instance (pada EC2 Instans yang Didukung):/opt/dlami/nvme

  • Kueri AMI-ID dengan Parameter SSM (contoh Wilayah adalah us-east-1):

    • Pengemudi OSS Nvidia:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
    • Pengemudi Nvidia Berpemilik:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • Kueri AMI-ID dengan AWSCLI (contoh Wilayah adalah us-east-1):

    • Pengemudi OSS Nvidia:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • Pengemudi Nvidia Berpemilik:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

Pemberitahuan

Toolkit Kontainer NVIDIA 1.17.4

Dalam Container Toolkit versi 1.17.4 pemasangan pustaka compat CUDA sekarang dinonaktifkan. Untuk memastikan kompatibilitas dengan beberapa versi CUDA pada alur kerja kontainer, pastikan Anda memperbarui LD_LIBRARY_PATH Anda untuk menyertakan pustaka kompatibilitas CUDA Anda seperti yang ditunjukkan dalam tutorial Jika Anda menggunakan lapisan kompatibilitas CUDA.

Pembaruan EFA dari 1.37 ke 1.38 (Rilis pada 2025-02-04)

EFA sekarang menggabungkan plugin AWS OFI NCCL, yang sekarang dapat ditemukan di/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Jika memperbarui variabel LD_LIBRARY_PATH Anda, pastikan Anda memodifikasi lokasi OFI NCCL Anda dengan benar.

Kebijakan dukungan

Komponen AMI ini seperti versi CUDA dapat dihapus dan diubah berdasarkan kebijakan dukungan kerangka kerja atau untuk mengoptimalkan kinerja untuk wadah pembelajaran mendalam atau untuk mengurangi ukuran AMI di rilis mendatang, tanpa pemberitahuan sebelumnya. Kami menghapus versi CUDA dari AMIs jika tidak digunakan oleh versi kerangka kerja yang didukung.

EC2 contoh dengan beberapa kartu jaringan
  • Banyak jenis contoh yang mendukung EFA juga memiliki beberapa kartu jaringan.

  • DeviceIndex unik untuk setiap kartu jaringan, dan harus berupa bilangan bulat non-negatif kurang dari batas per. ENIs NetworkCard Pada P5, jumlah ENIs per NetworkCard adalah 2, yang berarti bahwa satu-satunya nilai yang valid untuk DeviceIndex adalah 0 atau 1.

    • Untuk antarmuka jaringan utama (indeks kartu jaringan 0, indeks perangkat 0), buat antarmuka EFA (EFA dengan ENA). Anda tidak dapat menggunakan antarmuka jaringan khusus EFA sebagai antarmuka jaringan utama.

    • Untuk setiap antarmuka jaringan tambahan, gunakan indeks kartu jaringan yang tidak digunakan berikutnya, indeks perangkat 1, dan EFA (EFA dengan ENA) atau antarmuka jaringan khusus EFA, tergantung pada kasus penggunaan Anda, seperti persyaratan bandwidth ENA atau ruang alamat IP. Misalnya kasus penggunaan, lihat konfigurasi EFA untuk instance P5.

    • Untuk informasi lebih lanjut, lihat Panduan EFA di sini.

Contoh P5/P5e
  • Instans P5 dan P5e berisi 32 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Contoh P5en
  • P5en berisi 16 kartu antarmuka jaringan, dan dapat diluncurkan menggunakan perintah berikut: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
Kernel
  • Versi kernel disematkan menggunakan perintah:

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • Kami menyarankan agar pengguna menghindari memperbarui versi kernel mereka (kecuali karena patch keamanan) untuk memastikan kompatibilitas dengan driver dan versi paket yang diinstal. Jika pengguna masih ingin memperbarui, mereka dapat menjalankan perintah berikut untuk melepas pin versi kernel mereka:

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • Untuk setiap versi baru DLAMI, kernel kompatibel terbaru yang tersedia digunakan.

Tanggal Rilis: 2025-04-24

Nama AMI
  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250424

  • GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20250424

Diperbarui

Tanggal Rilis: 2025-02-17

Nama AMI
  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250214

  • GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20250214

Diperbarui
Dihapus

Tanggal Rilis: 2025-02-04

Nama AMI
  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250204

  • GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20250204

Diperbarui
  • Versi EFA yang ditingkatkan dari 1.37.0 ke 1.38.0

    • EFA sekarang menggabungkan plugin AWS OFI NCCL, yang sekarang dapat ditemukan di/-ofi-nccl/. opt/amazon/ofi-nccl rather than the original /opt/aws Jika memperbarui variabel LD_LIBRARY_PATH Anda, pastikan Anda memodifikasi lokasi OFI NCCL Anda dengan benar.

Dihapus

Tanggal Rilis: 2025-01-17

Nama AMI
  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20250117

  • GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20250117

Diperbarui

Tanggal Rilis: 2024-12-09

Nama AMI
  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241206

  • GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20241206

Diperbarui
  • Toolkit Kontainer Nvidia yang ditingkatkan dari versi 1.17.0 ke 1.17.3

Tanggal Rilis: 2024-11-22

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241122

Ditambahkan
  • Menambahkan dukungan untuk Instans P5en EC2 .

Diperbarui
  • Installer EFA yang ditingkatkan dari versi 1.35.0 ke 1.37.0

  • Tingkatkan Plugin AWS OFI NCCL dari versi 1.12.1-aws ke 1.13.0-aws

Tanggal Rilis: 2024-10-26

Nama AMI
  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241025

  • GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20241025

Diperbarui

Tanggal Rilis: 2024-10-03

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240927

Diperbarui
  • Toolkit Kontainer Nvidia yang ditingkatkan dari versi 1.16.1 ke 1.16.2

Tanggal Rilis: 2024-08-27

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240827

Diperbarui
  • Driver Nvidia dan Fabric Manager yang ditingkatkan dari versi 535.183.01 ke 550.90.07

  • Versi EFA yang ditingkatkan dari 1.32.0 ke 1.34.0

  • Upgrade NCCL ke versi terbaru 2.22.3 untuk semua versi CUDA

    • CUDA 11.7 ditingkatkan dari versi 2.16.2+ .7 CUDA11

    • CUDA 12.1, 12.2 ditingkatkan dari 2.18.5+ .2 CUDA12

    • CUDA 12.3 ditingkatkan dari versi 2.21.5+ .4 CUDA12

Ditambahkan
  • Ditambahkan CUDA toolkit versi 12.4 di direktori/-12.4 usr/local/cuda

  • Ditambahkan dukungan untuk P5e Instance EC2 .

Dihapus
  • Dihapus CUDA Toolkit versi 11.8 tumpukan hadir di direktori/-11.8 usr/local/cuda

Tanggal Rilis: 2024-08-19

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240816

Ditambahkan
  • Ditambahkan dukungan untuk contoh G6e EC2 .

Tanggal Rilis: 2024-06-06

Nama AMI
  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240606

  • GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20240606

Diperbarui
  • Diperbarui versi driver Nvidia ke 535.183.01 dari 535.161.08

Tanggal Rilis: 2024-05-15

Nama AMI
  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240515

  • GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20240515

Ditambahkan
  • Ditambahkan kembali CUDA11 .7 tumpukan di direktori/usr/local/cuda-11.7 dengan CUDA11 .7, NCCL 2.16.2, cuDNN 8.7.0 sebagai 1.13 mendukung .7 PyTorch CUDA11

Tanggal Rilis: 2024-05-02

Nama AMI
  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240502

  • GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20240502

Diperbarui
Ditambahkan
  • Ditambahkan CUDA12 .3 tumpukan CUDA12 dengan.3, NCCL 2.21.5, cuDNN 8.9.7

Dihapus

Tanggal Rilis: 2024-04-04

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240404

Ditambahkan

Tanggal Rilis: 2024-03-29

Nama AMI
  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240326

  • GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20240326

Diperbarui
  • Driver Nvidia yang diperbarui dari 535.104.12 ke 535.161.08 di driver Proprietary dan OSS Nvidia. DLAMIs

  • Dihapus G4dn, G5 EC2 instans dukungan dari driver Nvidia Proprietary DLAMI.

  • Instans baru yang didukung untuk setiap DLAMI adalah sebagai berikut:

    • Pembelajaran Mendalam dengan Driver Nvidia Proprietary mendukung G3 (G3.16x tidak didukung), P3, P3dn

    • Pembelajaran Mendalam dengan OSS Nvidia Driver mendukung G4dn, G5, P4d, P4de, P5.

Tanggal Rilis: 2024-03-20

Nama AMI
  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240318

  • GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20240318

Ditambahkan
  • Ditambahkan awscliv2 di AMI di/usr/local/bin/aws2, bersama awscliv1 usr/bin/aws sebagai/pada AMI Driver Proprietary dan OSS Nvidia

Tanggal Rilis: 2024-03-14

Nama AMI: Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240314

Diperbarui
  • DLAMI driver OSS Nvidia yang diperbarui dengan dukungan G4dn dan G5, berdasarkan dukungan saat ini terlihat seperti di bawah ini:

    • Driver Nvidia Proprietary Deep Learning Base AMI (Ubuntu 20.04) mendukung P3, P3dn, G3, G5, G4dn.

    • Basis Pembelajaran Mendalam OSS Nvidia Driver AMI (Ubuntu 20.04) mendukung G5, G4dn, P4, P5.

  • Driver OSS Nvidia DLAMIs direkomendasikan untuk digunakan untuk G5, G4dn, P4, P5.

Tanggal Rilis: 2024-02-12

Nama AMI
  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240208

  • GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20240208

Diperbarui
  • AWS Plugin OFI NCCL diperbarui dari 1.7.3 ke 1.7.4

Tanggal Rilis: 2024-02-01

Nama AMI
  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240201

  • GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20240201

Keamanan

Tanggal Rilis: 2023-12-04

Nama AMI
  • Basis Pembelajaran Mendalam OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20231204

  • GPU Driver Nvidia Milik Basis Pembelajaran Mendalam AMI (Ubuntu 20.04) 20231204

Ditambahkan
  • AWS Deep Learning AMI (DLAMI) dibagi menjadi dua kelompok terpisah:

    • DLAMI yang menggunakan Nvidia Proprietary Driver (untuk mendukung P3, P3dn, G3, G5, G4dn).

    • DLAMI yang menggunakan Nvidia OSS Driver untuk mengaktifkan EFA (untuk mendukung P4, P5).

  • Silakan merujuk ke Perubahan penting pada DLAMI untuk informasi lebih lanjut tentang pemisahan DLAMI.

  • AWS CLI kueri untuk di atas berada di bawah bullet point Query AMI-ID AWSCLI dengan (contoh Wilayah adalah us-east-1)

Diperbarui
  • EFA diperbarui dari 1.26.1 ke 1.29.0

  • GDRCopy diperbarui dari 2.3 ke 2.4

Tanggal Rilis: 2023-10-18

Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20231018

Diperbarui
  • AWS OFI NCCL Plugin diperbarui dari versi 1.7.2 ke versi 1.7.3

  • Direktori CUDA 12.0-12.1 yang diperbarui dengan NCCL versi 2.18.5 agar sesuai dengan CUDA 12.2

  • CUDA12.1 diperbarui sebagai Versi CUDA default

    • Diperbarui LD_LIBRARY_PATH untuk memiliki//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin

    • Untuk pelanggan yang ingin mengubah ke versi CUDA yang berbeda, harap tentukan variabel LD_LIBRARY_PATH dan PATH yang sesuai.

Tanggal Rilis: 2023-10-02

Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20231002

Diperbarui
  • Driver NVIDIA diperbarui dari 535.54.03 ke 535.104.12

    • Driver terbaru ini memperbaiki perubahan melanggar NVMLABI yang ditemukan di versi driver 535.54.03, serta regresi driver yang ditemukan di versi 535.86.10 yang memengaruhi toolkit CUDA pada instance P5. Silakan referensi catatan rilis NVIDIA berikut untuk rincian tentang perbaikan:

    • Silakan referensi catatan rilis NVIDIA berikut untuk rincian tentang perbaikan:

      • 4235941 - Perbaikan perubahan NVMLABI Breaking

      • 4228552 - Perbaikan Kesalahan CUDA Toolkit

  • Direktori CUDA 12.2 yang diperbarui dengan NCCL 2.18.5

  • EFA diperbarui dari versi 1.24.1 ke 1.26.1 terbaru

Ditambahkan
  • Ditambahkan CUDA12 .2 di/usr/local/cuda-12.2

Dihapus
  • Dukungan yang dihapus untuk CUDA 11.5 dan CUDA 11.6

Tanggal Rilis: 2023-09-26

Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20230926

Ditambahkan
  • Menambahkan perubahan net.naming-scheme untuk memperbaiki masalah penamaan antarmuka jaringan yang tidak terduga (tautan) yang terlihat di P5. Perubahan ini dilakukan dengan menyetel net.naming-scheme=v247 dalam argumen boot linux di file/etc/default/grub

Tanggal Rilis: 2023-08-30

Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20230830

Diperbarui
  • Diperbarui aws-ofi-nccl plugin dari v1.7.1 untuk v1.7.2

Tanggal Rilis: 2023-08-11

Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20230811

Ditambahkan
  • AMI ini sekarang menyediakan dukungan untuk fungsionalitas pelatihan Multi-node pada P5 dan semua instans yang didukung sebelumnya EC2 .

  • Untuk EC2 contoh P5, NCCL 2.18 direkomendasikan untuk digunakan dan telah ditambahkan ke CUDA12 .0, dan .1. CUDA12

Dihapus
  • Dukungan yang dihapus untuk CUDA11 .3 dan CUDA11 .4.

Tanggal Rilis: 2023-08-04

Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20230804

Diperbarui
  • Diperbarui AWS plugin OFI NCCL ke v1.7.1

  • Membuat CUDA11 .8 sebagai default karena PyTorch 2.0 mendukung 11.8 dan untuk EC2 instance P5, disarankan untuk menggunakan >= .8 CUDA11

    • Diperbarui LD_LIBRARY_PATH untuk memiliki//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin

    • Untuk versi cuda yang berbeda, harap tentukan LD_LIBRARY_PATH yang sesuai.

  • Diperbarui CUDA 12.0, 12.1 direktori dengan NCCL 2.18.3

Tetap
  • Memperbaiki masalah pemuatan paket Nvidia Fabric Manager (FM) yang disebutkan di Tanggal Rilis sebelumnya 2023-07-19.

Tanggal Rilis: 2023-07-19

Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20230719

Diperbarui
  • EFA diperbarui dari 1.22.1 ke 1.24.1

  • Driver Nvidia diperbarui dari 525.85.12 ke 535.54.03

Ditambahkan
  • Menambahkan perubahan c-state untuk menonaktifkan status idle prosesor dengan menyetel c-state maks ke C1. Perubahan ini dilakukan dengan menyetel `intel_idle.max_cstate=1 processor.max_cstate=1` dalam argumen boot linux di file/etc/default/grub

  • AWS EC2 Dukungan instance P5:

    • Ditambahkan P5 dukungan EC2 instance untuk alur kerja menggunakan node/instance tunggal. Dukungan multi-node (misalnya untuk pelatihan multi-node) menggunakan EFA (Elastic Fabric Adapter) dan plugin AWS OFI NCCL akan ditambahkan dalam rilis mendatang.

    • Silakan gunakan CUDA> = 11.8 untuk kinerja optimal.

    • Masalah yang Diketahui: Paket Nvidia Fabric Manager (FM) membutuhkan waktu untuk memuat pada P5, pelanggan harus menunggu selama 2-3 menit hingga FM dimuat setelah meluncurkan instans P5. Untuk memeriksa apakah FM dimulai, jalankan perintah sudo systemctl is-active nvidia-fabricmanager, itu harus kembali aktif sebelum memulai alur kerja apa pun. Ini akan ditingkatkan dalam rilis mendatang.

Tanggal Rilis: 2023-05-19

Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20230519

Diperbarui
  • EFA diperbarui ke 1.22.1 terbaru

  • Versi NCCL yang diperbarui untuk CUDA 12.1 hingga 2.17.1

Ditambahkan
  • Ditambahkan CUDA12 .1 di/usr/local/cuda-12.1

  • Menambahkan dukungan untuk NVIDIA Data Center GPU Monitor (DCGM) melalui paket datacenter-gpu-manager

    • Anda dapat memeriksa status layanan ini melalui kueri berikut: sudo systemctl status nvidia-dcgm

  • Toko Ephemeral NVMe Instance sekarang secara otomatis dipasang ke EC2 instance yang didukung dan penyimpanan dapat diakses di folder//. opt/dlami/nvme Anda dapat memeriksa atau memodifikasi layanan ini dengan cara berikut:

    • Periksa status NVMe layanan: sudo systemctl status dlami-nvme

    • Untuk mengakses atau memodifikasi layanan:/opt/aws/dlami/bin/nvme_ephemeral_drives.sh

  • NVMe volume menyediakan solusi penyimpanan tercepat dan paling efisien untuk alur kerja throughput tinggi yang memerlukan kinerja IOPS. Toko NVMe instans sementara disertakan dengan biaya instans, sehingga tidak ada biaya tambahan yang dikeluarkan dengan layanan ini.

  • NVMe penyimpanan instance hanya akan dipasang pada EC2 instance yang mendukungnya. Untuk informasi tentang EC2 instance dengan penyimpanan instans yang NVMe didukung, lihat Volume penyimpanan instans yang tersedia dan memvalidasi yang NVMe didukung.

  • Untuk meningkatkan kinerja disk dan mengurangi penalti penulisan pertama, Anda dapat menginisialisasi penyimpanan instans (perhatikan, proses ini mungkin memakan waktu berjam-jam tergantung pada jenis instans) - Inisialisasi volume penyimpanan instans pada EC2 instance EC2

  • CATATAN: penyimpanan NVMe instance dipasang pada instance dan tidak terpasang ke jaringan seperti EBS. Data pada NVMe volume ini mungkin hilang saat reboot atau penghentian instance Anda.

Tanggal Rilis: 2023-04-17

Nama AMI: GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) 20230414

Diperbarui
  • Nama DLAMI yang diperbarui AWS dari Basis Pembelajaran Mendalam AMI GPU CUDA 11 (Ubuntu 20.04) $ {YYYY-MM-DD} ke GPU Dasar Pembelajaran Mendalam AMI (Ubuntu 20.04) $ {YYYY-MM-DD}

    • Harap dicatat bahwa kami akan mendukung DLAMI terbaru dengan nama AMI lama selama sebulan dari rilis ini untuk dukungan apa pun yang diperlukan. Pelanggan dapat memperbarui paket OS mereka apt-get update && apt-get upgrade untuk menggunakan patch keamanan.

  • Jalur plugin AWS OFI NCCL yang diperbarui dari/-ofi-nccl/ usr/local/cuda-xx.x/efa/ to /opt/aws

  • NCCL yang diperbarui ke cabang GIT kustom v2.16.2, ditulis bersama oleh AWS dan tim NCCL untuk semua versi CUDA. Ini bekerja lebih baik pada AWS infrastruktur.

Ditambahkan
  • Ditambahkan CUDA12 .0 di/usr/local/cuda-12.0

  • Ditambahkan AWS FSx

  • Ditambahkan dukungan untuk Python versi 3.9 di/3.9 usr/bin/python

    • Perhatikan bahwa perubahan ini tidak menggantikan Python sistem default, python3 masih akan mengarahkan sistem Python3.8.

    • Python3.9 dapat diakses menggunakan perintah berikut:

      /usr/bin/python3.9 python3.9
Dihapus

Tanggal Rilis: 2022-05-25

Nama AMI: Basis AWS Pembelajaran Mendalam AMI GPU CUDA 11 (Ubuntu 20.04) 20220523

Diperbarui
  • Rilis ini menambahkan dukungan untuk EC2 contoh baru p4de.24xlarge.

    • Diperbarui aws-efa-installer ke versi 1.15.2

    • Diperbarui aws-ofi-nccl ke versi 1.3.0-aws yang menyertakan topologi untuk p4de.24xlarge.

Tanggal Rilis: 2022-03-25

Nama AMI: Basis AWS Pembelajaran Mendalam AMI GPU CUDA 11 (Ubuntu 20.04) 20220325

Diperbarui
  • Diperbarui versi EFA dari 1.15.0 ke 1.15.1

Tanggal Rilis: 2022-03-17

Nama AMI: Basis AWS Pembelajaran Mendalam AMI GPU CUDA 11 (Ubuntu 20.04) 20220323

Ditambahkan
  • Rilis pertama