AWS 深度學習 ARM64 Base GPU AMI (Amazon Linux 2) - AWS 深度學習 AMIs

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS 深度學習 ARM64 Base GPU AMI (Amazon Linux 2)

如需入門說明,請參閱 DLAMI 入門

AMI 名稱格式

  • 深度學習 ARM64 基礎 OSS Nvidia 驅動程式 GPU AMI (Amazon Linux 2) ${YYYY-MM-DD}

支援的 EC2 執行個體

  • G5g

AMI 包含下列項目:

  • 支援服務 AWS :Amazon EC2

  • 作業系統:Amazon Linux 2

  • 運算架構:ARM64

  • Linux 核心:5.10

  • NVIDIA 驅動程式:550.144.03

  • NVIDIA CUDA12.1、12.2、12.3 堆疊

    • CUDA、NCCL 和 cuDDN 安裝目錄:

      • 範例:/usr/local/cuda-12.1/ 、/usr/local/cuda-12.1/

    • 編譯的 NCCL 版本

      • 對於 CUDA 目錄 12.3,編譯的 NCCL 2.21.5+CUDA12.4 版

      • 對於 12.1、12.2 的 CUDA 目錄,編譯了 NCCL 版本 .18.5+CUDA12.2

    • 預設 CUDA:12.1

      • PATH /usr/local/cuda 指向 CUDA 12.1

      • 已更新下列 env vars:

        • LD_LIBRARY_PATH 具有 /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/sbsa-linux/lib:/usr/local/cuda-12.1/nvm/lib64:/usr/local/cuda-12.1/extras/CUPTI/lib64

        • 要具有 /usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/ 的 PATH

        • 對於任何不同的 CUDA 版本,請相應地更新 LD_LIBRARY_PATH。

  • AWS CLI v2 位於 /usr/local/bin/aws2,AWS CLI v1 位於 /usr/bin/aws

  • EBS 磁碟區類型:gp3

  • Nvidia 容器工具組:1.16.2

    • 版本命令:nvidia-container-cli -V

  • Docker:26.1.2

  • Python:/usr/bin/python3.10

  • 使用 SSM 參數查詢 AMI-ID (範例區域為 us-east-1):

    aws ssm get-parameter --region us-east-1 \ --name/aws/service/deeplearning/ami/arm64/base-oss-nvidia-driver-gpu-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output text
  • 使用 AWSCLI 查詢 AMI-ID (範例區域為 us-east-1):

    aws ec2 describe-images --region us-east-1 \ -owners amazon \ --filters 'Name=name,Values=Deep Learning ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

注意

NVIDIA Container Toolkit 1.17.4

在 Container Toolkit 1.17.4 版中,CUDA Compat 程式庫的掛載現已停用。為了確保與容器工作流程上的多個 CUDA 版本相容,請確保您更新 LD_LIBRARY_PATH 以包含 CUDA 相容性程式庫,如如果您使用 CUDA 相容性層教學中所示。

支援政策

此 AMIs 的這些 AMI 元件,例如 CUDA 版本,可能會根據架構支援政策,或最佳化深度學習容器的效能,或減少未來版本的 AMI 大小,而不需要事先通知。如果任何支援的架構版本未使用 CUDA 版本,我們會從 AMIs 中移除這些版本。

核心
  • 核心版本使用 命令鎖定:

    sudo yum versionlock kernel*
  • 我們建議使用者避免更新其核心版本 (除非因為安全修補程式),以確保與已安裝的驅動程式和套件版本相容。如果使用者仍想要更新,可以執行下列命令來取消鎖定核心版本:

    sudo yum versionlock delete kernel* sudo yum update -y
  • 對於每個新版本的 DLAMI,會使用最新的可用相容核心。

發行日期:2025-02-17

AMI 名稱:深度學習 ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2) 20250214

Updated

已移除

發行日期:2025-01-17

AMI 名稱:深度學習 ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2) 20250117

Updated

發行日期:2024-10-22

AMI 名稱:深度學習 ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2) 20241022

Updated

發行日期:2024-10-08

AMI 名稱:深度學習 ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2) 20241008

Updated

  • 已將 Nvidia Container Toolkit 從 1.16.1 版升級至 1.16.2 版,以解決安全性漏洞CVE-2024-0133

發行日期:2024-06-06

AMI 名稱:深度學習 ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2) 20240606

Updated

  • 將 Nvidia 驅動程式版本從 535.183.01 更新至 535.161.08

發行日期:2024-05-14

AMI 名稱:深度學習 ARM64 Base OSS Nvidia Driver GPU AMI (Amazon Linux 2) 20240514

已新增

  • 適用於 Amazon Linux 2 的 Deep Learning ARM64 Base OSS DLAMI 初始版本