AWS 深度學習 AMI GPU TensorFlow 2.16 (Amazon Linux 2) - AWS 深度學習 AMIs

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS 深度學習 AMI GPU TensorFlow 2.16 (Amazon Linux 2)

如需入門說明,請參閱 DLAMI 入門

AMI 名稱格式

  • Deep Learning 專屬 Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) ${YYYY-MM-DD}

  • 深度學習 OSS Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) ${YYYY-MM-DD}

支援的 EC2 執行個體

  • 請參閱 DLAMI 的重要變更

  • 使用 OSS Nvidia 驅動程式的深度學習支援 G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en。

  • Deep Learning with Proprietary Nvidia Driver 支援 G3 (不支援 G3.16x)、P3, P3dn

AMI 包含下列項目:

  • 支援 AWS 的服務:EC2

  • 作業系統:Amazon Linux 2

  • 運算架構:x86

  • Python:/opt/tensorflow/bin/python3.10

  • TensorFlow 版本:2.16

  • NVIDIA 驅動程式

    • OSS Nvidia 驅動程式:550.144.03

    • 專屬 Nvidia 驅動程式:550.144.03

  • NVIDIA CUDA12 堆疊

    • CUDA、NCCL 和 cuDDN 安裝路徑:/usr/local/cuda-12.2/

  • EFA 安裝程式:1.34.0

  • AWS CLI v2 作為 aws2 和 AWS CLI v1 作為 aws

  • EBS 磁碟區類型:gp3

  • 使用 SSM 參數查詢 AMI-ID (範例區域為 us-east-1)

    • OSS Nvidia 驅動程式

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-tensorflow-2.16-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
    • 專屬 Nvidia 驅動程式

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/proprietary-nvidia-driver-gpu-tensorflow-2.16-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
  • 使用 AWSCLI 查詢 AMI-ID (範例區域為 us-east-1)

    • OSS Nvidia 驅動程式

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU TensorFlow 2.16 (Amazon Linux 2) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
    • 專屬 Nvidia 驅動程式

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI GPU TensorFlow 2.16 (Amazon Linux 2) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

Notice (注意)

NVIDIA Container Toolkit 1.17.4

在 Container Toolkit 1.17.4 版中,CUDA Compat 程式庫的掛載現已停用。為了確保容器工作流程上多個 CUDA 版本的相容性,請確保您更新 LD_LIBRARY_PATH 以包含 CUDA 相容性程式庫,如「如果您使用 CUDA 相容性層」教學課程 - https://https://docs.aws.amazon.com/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat 所示

未來的 TensorFlow 作業系統更新

TensorFlow 2.16 將是最後一個使用 Ubuntu 20.04 作業系統的 DLAMI。從 TensorFlow 2.17 及更高版本開始,DLAMIs將開始利用 Ubuntu 22.04 作為基礎作業系統。對於想要升級至這些新版本的客戶,請確保您的工作流程已準備好進行此升級。

Keras 版本固定為 2.0 而不是 3.0

透過最新的 TF2.16 版本,Keras 已從主要版本 2 升級到主要版本 3.0。此 Keras 版本是 Keras 套件的完整重寫 (如需詳細資訊,請參閱 Keras 3 文件)。為了確保與客戶工作流程的相容性,我們使用環境變數 TF_USE_LEGACY_KERAS=1 將 Keras 版本固定為 2.0。如果您的工作流程需要使用 Keras 3.0,請使用下列指令碼從 TensorFlow 虛擬環境 /opt/tensorflow 中移除此環境變數:

source /opt/tensorflow/bin/activate unset TF_USE_LEGACY_KERAS

版本日期:2025-02-17

AMI 名稱:

  • 深度學習 OSS Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20250215

  • Deep Learning 專屬 Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20250215

Updated
已移除

發行日期:2025-01-20

AMI 名稱:

  • 深度學習 OSS Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20250120

  • Deep Learning 專屬 Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20250118

Updated

發行日期:2024-10-23

AMI 名稱:

  • 深度學習 OSS Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20241022

  • Deep Learning 專屬 Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20241023

Updated

發行日期:2024-09-28

AMI 名稱:

  • 深度學習 OSS Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240928

  • Deep Learning 專屬 Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240928

Updated
  • 已將 Nvidia Container Toolkit 從 1.16.1 版升級至 1.16.2 版,解決安全性漏洞 CVE-2024-0133

發行日期:2024-09-21

AMI 名稱:

  • 深度學習 OSS Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240921

  • Deep Learning 專屬 Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240921

Updated
  • 將 Nvidia 驅動程式和 Fabric Manager 從 535.183.01 版升級至 550.90.07

  • 已將 EFA 版本從 1.32.0 升級至 1.34.0

  • 將 PyTorch 版本從 2.3.0 版更新至 2.3.1 版

已新增
  • 新增對 OSS Nvidia 驅動程式映像上 P5e EC2 執行個體的支援。

發行日期:2024-08-19

AMI 名稱:

  • 深度學習 OSS Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240817

已新增

2.16.2 版 - 發行日期:2024-07-26

AMI 名稱:

  • 深度學習 OSS Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240725

Updated
  • 將 TensorFlow 修補程式版本從 2.16.1 版更新至 2.16.2 版

  • 已解決 2024-07-17 發行的 DLAMI 中不正確的 TensorFlow 次要版本

    • 深度學習 OSS Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240717 版本無意中包含 TensorFlow 次要版本 2.17,而不是 2.16。請確保依賴 TensorFlow 2.16 的工作流程正在升級至最新的 DLAMI。

2.16.1 版 - 發行日期:2024-06-10

AMI 名稱:

  • 深度學習 OSS Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240607

  • Deep Learning 專屬 Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240610

Updated
  • 將 Nvidia 驅動程式版本從 535.183.01 更新至 535.161.08

發行日期:2024-05-10

請參閱 DLAMI 的重要變更

AMI 名稱:

  • Deep Learning 專屬 Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240510

  • 深度學習 OSS Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 20240510

已新增
  • 初始版本:

    • Deep Learning 專屬 Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 系列。

    • 深度學習 OSS Nvidia 驅動程式 AMI GPU TensorFlow 2.16 (Amazon Linux 2) 系列。

    • 軟體 包括下列項目:

      • "nvidia-driver=535.161.08"

      • "fabric-manager=535.161.08"

      • 「cuda=12.3」

      • 「cudnn=8.9.7」

      • "efa=1.32.0"

      • "nccl=2.21.5"

      • 「aws-nccl-ofi-plugin=v1.9.1-aws」

  • 新增了張量流程虛擬環境 (啟用命令來源 /opt/tensorflow/bin/activate)。此環境包含下列項目:

    • 「tensorflow=2.16.1」

    • 注意

      • 從 TF2.16 開始,tf.estimator API 會移除。

      • 為了確保與客戶工作流程的相容性,我們使用環境變數 TF_USE_LEGACY_KERAS=1 將 Keras 版本固定為 2.0。如果您的工作流程需要使用 Keras 3.0,請使用下列指令碼從 TensorFlow 虛擬環境 /opt/tensorflow 中移除此環境變數:

source /opt/tensorflow/bin/activate unset TF_USE_LEGACY_KERAS