AWS 深度學習 AMI (Amazon Linux 2) - AWS 深度學習 AMIs

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS 深度學習 AMI (Amazon Linux 2)

提示

建議使用 PyTorch 或 TensorFlow 等單一架構的客戶使用此處提及的單一架構 DLAMIs

如需入門說明,請參閱 DLAMI 入門

AMI 名稱格式

  • Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 版本 ${XX.X}

  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 版本 ${XX.X}

支援的 EC2 執行個體

  • 請參閱 DLAMI 的重要變更

  • 深度學習搭配 OSS Nvidia 驅動程式支援 G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5

  • Deep Learning with Proprietary Nvidia Driver 支援 G3 (不支援 G3.16x)、P3, P3dn

AMI 包含下列項目:

  • 支援服務 AWS :Amazon EC2

  • 作業系統:Amazon Linux 2

  • 運算架構:x86

  • Conda 環境架構和 python 版本:

    • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2):

      • python3:Python 3.10

      • tensorflow2_p310:TensorFlow 2.16、Python 3.10

      • pytorch_p310:PyTorch 2.2、Python 3.10

    • Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2):

      • python3:Python 3.10

      • tensorflow2_p310:TensorFlow 2.16、Python 3.10

      • pytorch_p310:PyTorch 2.2、Python 3.10

  • NVIDIA 驅動程式

    • OSS Nvidia 驅動程式:550.163.01

    • 專屬 Nvidia 驅動程式:550.163.01

  • NVIDIA CUDA12.1-12.4 堆疊

    • CUDA、NCCL 和 cuDDN 安裝路徑:/usr/local/cuda-xx.x/

    • 預設 CUDA:12.1

      • PATH /usr/local/cuda 指向 CUDA12.1

      • 已更新下列 env vars:

        • LD_LIBRARY_PATH 具有 /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • PATH 讓 /usr/local/cuda-12.1/bin/:/usr/local/cuda-11.8/include/

      • 對於任何不同的 CUDA 版本,請相應地更新 LD_LIBRARY_PATH。

    • CUDA 12.1-12.4 的編譯 NCCL 版本:2.22.3

    • NCCL 測試位置:

      • all_reduce、all_gather 和 reduce_scatter:/usr/local/cuda-xx.x/efa/test-cuda-xx.x/

      • 若要執行 NCCL 測試,LD_LIBRARY_PATH 需要通過以下更新。

        • 常見 PATHs已新增至 LD_LIBRARY_PATH:

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • 對於任何不同的 CUDA 版本,請相應地更新 LD_LIBRARY_PATH。

  • EFA 安裝程式:1.38.0

  • GDRCopy:2.4

  • AWS OFI NCCL:1.13.2

    • 系統位置:/usr/local/cuda-xx.x/efa

    • 這會新增以執行位於 /usr/local/cuda-xx.x/efa/test-cuda-xx.x/ 的 NCCL 測試

    • 此外,PyTorch 套件隨附動態連結的 AWS OFI NCCL 外掛程式做為 conda 套件 aws-ofi-nccl-dlc 套件,而 PyTorch 將使用該套件,而不是系統 AWS OFI NCCL。

  • NCCL 測試位置:/usr/local/cuda-xx.x/efa/test-cuda-xx.x/

  • AWS CLI v2 位於 /usr/local/bin/aws2,AWS CLI v1 位於 /usr/local/bin/aws

  • EBS 磁碟區類型:gp3

  • 使用 SSM 參數查詢 AMI-ID (範例區域為 us-east-1):

    • OSS Nvidia 驅動程式:

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-oss-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
    • 專屬 Nvidia 驅動程式:

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
  • 使用 AWSCLI 查詢 AMI-ID (範例區域為 us-east-1):

    • OSS Nvidia 驅動程式:

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
    • 專屬 Nvidia 驅動程式:

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

注意

從 1.37 到 1.38 的 EFA 更新 ( 發行2025-02-05)

  • EFA 現在綁定 AWS OFI NCCL 外掛程式,現在可在 /opt/amazon/ofi-nccl 中找到,而不是原始 /opt/aws-ofi-nccl/。如果更新 LD_LIBRARY_PATH 變數,請確保您正確修改 OFI NCCL 位置。

Neuron Conda 環境移除

  • 2024 年 7 月 18 日之後發行的 Deep Learning 專屬 Nvidia 驅動程式 AMIs 將在 PyTorch 和 TensorFlow 沒有神經元 conda 環境的情況下運送。請改用 DLAMIs 版本備註上的 Neuron DLAMI,以利用神經環境。

稽核套件移除

  • 2024 年 3 月 26 日至 2024 年 4 月 12 日 ((2024-03-26) 之間發行的 DLAMI (2024-04-12在沒有稽核套件的情況下運送。如果您需要此特定套件來滿足您的記錄和監控需求,請將您的工作流程遷移至最新的 DLAMI,以便使用已安裝稽核套件的工作流程。

Horovod

  • Horovod 會從 DLAMI 上目前的 pytorch_p310 和 tensorflow2_p310 conda 環境中移除。客戶將能夠遵循 horovod 準則來安裝 horovod 程式庫,並在 DLAMIs上安裝它們以進行分散式訓練任務。

發行日期:2025-04-22

AMI 名稱
  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 81.2 版

  • Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 81.2 版

Updated

發行日期:2025-02-17

AMI 名稱
  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 80.6 版

  • Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 80.4 版

Updated

已移除

發行日期:2025-02-05

AMI 名稱
  • Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 80.2 版

  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 80.4 版

Updated

  • 已將 EFA 版本從 1.37.0 升級至 1.38.0

    • EFA 現在綁定 AWS OFI NCCL 外掛程式,現在可在 /opt/amazon/ofi-nccl 中找到,而不是原始 /opt/aws-ofi-nccl/。如果更新 LD_LIBRARY_PATH 變數,請確保您正確修改 OFI NCCL 位置。

版本日期:2025-01-15

AMI 名稱
  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 80.3 版

  • Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 80.1 版

Updated

發行日期:2024-12-09

AMI 名稱
  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 80.1 版

  • 深度學習專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 79.9 版

Updated

  • 已將 Nvidia Container Toolkit 從 1.17.0 版升級至 1.17.3 版

版本日期:2024-11-11

AMI 名稱
  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 79.9 版

  • 深度學習專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 79.7 版

Updated

  • 已將 Nvidia Container Toolkit 從 1.16.2 版升級至 1.17.0,以解決安全性漏洞 CVE-2024-0134

版本日期:2024-10-22

AMI 名稱
  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 79.6 版

  • 深度學習專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 79.6 版

Updated

發行日期:2024-10-03

AMI 名稱
  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 79.3 版

  • Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 79.3 版

Updated

  • 已將 Nvidia Container Toolkit 從 1.16.1 版升級至 1.16.2 版,以解決安全性漏洞 CVE-2024-0133

版本日期:2024-07-18

AMI 名稱
  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 78.6 版

  • Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 78.7 版

Updated

  • 從 Deep Learning Proprietary Nvidia Driver AMI 移除 aws_neuron_pytorch_p38 和 aws_neuron_tensorflow_p38 conda 環境。

  • 從深度學習專屬 Nvidia 驅動程式 AMI 移除 Inf1 執行個體系列支援。

發行日期:2024-06-06

AMI 名稱
  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 78.5 版

  • Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 78.5 版

Updated

  • 將 Nvidia 驅動程式版本從 535.183.01 更新至 535.161.08

發行日期:2024-05-17

AMI 名稱
  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 78.1 版

  • Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 78.1 版

Updated

版本日期:2024-05-07

AMI 名稱
  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 78.0 版

  • 深度學習專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 78.0 版

Updated

  • 在 tensorflow2_p310 環境中,TensorFlow 版本從 2.15 更新至 2.16。

  • 將 EFA 版本從 1.30 版更新至 1.32 版

  • 將 AWS OFI NCCL 外掛程式從 1.7.4 版更新至 1.9.1 版

  • 將 Nvidia 容器工具組從 1.13.5 版更新至 1.15.0

已新增

  • 新增 CUDA12.3 堆疊與 CUDA12.3、NCCL 2.21.5、CuDNN 8.9.7

已移除

  • 已移除 CUDA11.7、存在於 /usr/local/cuda-11.7 和 /usr/local/cuda-12.0 的 CUDA12.0 堆疊usr/local/cuda-12

  • 移除了 nvidia-docker2 套件及其命令 nvidia-docker,作為 Nvidia 容器工具組從 1.13.5 更新至 1.15.0 的一部分,其中不包含 nvidia-container-runtime 和 nvidia-docker2 套件。

發行日期:2024-04-04

AMI 名稱
  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 77.0 版

  • Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 77.0 版

Updated

  • PyTorch 版本從 2.1 更新至 2.2。

  • 對於 OSS Nvidia 驅動程式 DLAMIs,新增了 G6 和 Gr6 EC2 執行個體支援。如需詳細資訊,請參閱 EC2 執行個體選擇頁面。

發行日期:2024-03-29

AMI 名稱
  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 76.8 版

  • 深度學習專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 76.9 版

Updated

  • 在私有和 OSS Nvidia 驅動程式 DLAMIs 中,將 Nvidia 驅動程式從 535.161.08 更新535.104.12為 。

  • 每個 DLAMI 支援的新執行個體如下所示:

    • Deep Learning with Proprietary Nvidia Driver 支援 G3 (不支援 G3.16x)、P3, P3dn, Inf1

    • 搭配 OSS Nvidia Driver 的深度學習支援 G4dn, G5, P4d, P4de。

已移除

  • 從私有 Nvidia 驅動程式 DLAMI 移除 G4dn, G5, G3.16x EC2 執行個體支援。

76.8 版

發行日期:2024-03-20

AMI 名稱
  • 深度學習專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 76.8 版

已新增

  • 在 AMI 中新增 awscliv2 做為 /usr/local/bin/aws2,並在專有 Nvidia 驅動程式 AMI 上新增 awscliv1 做為 /usr/local/bin/aws

76.7 版

發行日期:2024-03-20

AMI 名稱
  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 76.7 版

已新增

  • 在 AMI 中新增 awscliv2 做為 /usr/local/bin/aws2,並在 OSS Nvidia 驅動程式 AMI 上新增 awscliv1 做為 /usr/local/bin/aws

  • 根據目前的支援,以 G4dn 和 G5 支援更新 OSS Nvidia 驅動程式 DLAMI,如下所示:

    • Deep Learning Base 專屬 Nvidia Driver AMI (Amazon Linux 2) 支援 P3, P3dn, G3, G5, G4dn。

    • Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) 支援 G4dn, G5, P4, P5。

  • OSS Nvidia 驅動程式 DLAMIs建議用於 G4dn, G5, P4, P5。

76.3 版

發行日期:2024-02-14

Updated

  • 將 TensorFlow 從 2.13.0 更新至 2.15.0

  • 將 EFA 從 1.29.0 更新至 1.30.0

  • 將 AWS-OFI-NCCL 從 1.7.3-aws 更新為 1.7.4-aws

  • 在 Deep Learning 專屬 Nvidia Driver AMI 上將 Nvidia Driver 更新為 535.104.12

  • 在深度學習 OSS Nvidia 驅動程式 AMI 上將 Nvidia 驅動程式更新為 535.154.05

76.2 版

發行日期:2024-02-02

AMI 名稱
  • 深度學習專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 76.2 版

  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 76.4 版

安全

  • 更新 runc 套件版本,以使用 CVE-2024-21626 的修補程式。

76.1 版

發行日期:2023-12-27

Updated

  • 將 PyTorch 從 2.0.1 更新至 2.1.0

75.1 版

發行日期:2023-11-17

請參閱 DLAMI 的重要變更

AMI 名稱
  • 深度學習 OSS Nvidia 驅動程式 AMI (Amazon Linux 2) 75.1 版

  • Deep Learning 專屬 Nvidia 驅動程式 AMI (Amazon Linux 2) 75.1 版

已新增

  • AWS 深度學習 AMI (DLAMI) 分為兩個不同的群組:

    • 使用 Nvidia 專屬驅動程式的 DLAMI (支援 P3, P3dn, G3, G5, G4dn)。

    • 使用 Nvidia OSS 驅動程式啟用 EFA (以支援 P4, P5) 的 DLAMI。

  • 如需 DLAMI 分割的詳細資訊,請參閱公告

  • AWS 上述 cli 查詢位於使用 AWSCLI 查詢 AMI-ID 的 版本備註中 (範例區域為 us-east-1) AWSCLI

Updated

  • EFA 從 1.26.1 更新至 1.29.0

  • GDRCopy 從 2.3 更新至 2.4

74.4 版

發行日期:2023-10-27

Updated

  • AWS OFI NCCL 外掛程式從 1.7.2 版更新至 1.7.3 版

  • 使用 NCCL 2.18.5 版更新 CUDA 12.0-12.1 目錄

  • CUDA12.1 已更新為預設 CUDA 版本

    • 已更新 LD_LIBRARY_PATH 為 /usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 和 PATH 為 /usr/local/cuda-12.1/bin/

    • 對於想要變更為任何不同 CUDA 版本的客戶,請相應地定義 LD_LIBRARY_PATH 和 PATH 變數。

  • 將 Pillow 從 9.4.0 版更新至 10.1.0,以修正所有 conda 環境中的 SNYK-PYTHON-PILLOW-5918878

  • 將 opencv-python 從 4.8.0.74 更新至 4.8.1.78,以修正所有 conda 環境中的 SNYK-PYTHON-OPENCVPYTHON-5926695

已新增

74.0 版

發行日期:2023-07-19

Updated

  • 將 TensorFlow 從 2.12 更新至 2.13

    • 此版本已從 conda 環境移除 Horovod。如需安裝 horovod 的詳細資訊,請參閱 通知

73.1 版

發行日期:2023-06-12

Updated

  • 將 PyTorch 從 2.0.0 更新至 2.0.1