AWS Deep Learning AMI GPU TensorFlow 2.16(Amazon Linux 2)
有关入门帮助,请参阅 DLAMI 入门。
AMI 名称格式
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)${年-月-日}
深度学习 OSS Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)${年-月-日}
支持的 EC2 实例
请参阅 DLAMI 的重要更改。
采用 OSS Nvidia 驱动程序的深度学习支持 G4dn、G5、G6、Gr6、G6e、P4d、P4de、P5、P5e、P5en。
采用专有 Nvidia 驱动程序的深度学习支持 G3(不支持 G3.16x)、P3、P3dn
该 AMI 包含以下内容:
支持的 AWS 服务:EC2
操作系统:Amazon Linux 2
计算架构:x86
Python:/opt/tensorflow/bin/python3.10
TensorFlow 版本:2.16
NVIDIA 驱动程序:
OSS Nvidia 驱动程序:550.144.03
专有 Nvidia 驱动程序:550.144.03
NVIDIA CUDA12 堆栈:
CUDA、NCCL 和 cuDDN 安装路径:/usr/local/cuda-12.2/
EFA 安装程序:1.34.0
AWS CLI v2 为 aws2 并且 AWS CLI v1 为 aws
EBS 卷类型:gp3
使用 SSM 参数查询 AMI-ID(示例区域为 us-east-1):
OSS Nvidia 驱动程序:
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-tensorflow-2.16-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text专有 Nvidia 驱动程序:
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/proprietary-nvidia-driver-gpu-tensorflow-2.16-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
使用 AWSCLI 查询 AMI-ID(示例区域为 us-east-1):
OSS Nvidia 驱动程序:
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU TensorFlow 2.16 (Amazon Linux 2) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text专有 Nvidia 驱动程序:
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI GPU TensorFlow 2.16 (Amazon Linux 2) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
声明
NVIDIA Container Toolkit 1.17.4
在 Container Toolkit 版本 1.17.4 中,现在禁用挂载 CUDA 兼容性库。为了确保与容器工作流中的多个 CUDA 版本兼容,请务必更新 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如此处“如果您使用 CUDA 兼容层”教程下所示 - https://docs.aws.amazon.com/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat
未来的 TensorFlow 操作系统更新
TensorFlow 2.16 将是最后一个利用 Ubuntu 20.04 操作系统的 DLAMI。从 TensorFlow 2.17 及以上版本开始,DLAMI 将转而使用 Ubuntu 22.04 作为基础操作系统。对于计划升级到这些新版本的客户,请确保您的工作流已为此升级做好准备。
Keras 版本固定为 2.0 而不是 3.0
在最新的 TF2.16 版本中,Keras 已从主版本 2 升级到主版本 3.0。此 Keras 版本是对 Keras 包的完全重写(有关更多信息,请参阅 Keras 3 文档
source /opt/tensorflow/bin/activate unset TF_USE_LEGACY_KERAS
发布日期:2025-02-17
AMI 名称:
深度学习 OSS Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20250215
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20250215
更新
NVIDIA Container Toolkit 版本从 1.17.3 更新为 1.17.4
有关更多信息,请查看此处的发布说明页面:https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
在 Container Toolkit 版本 1.17.4 中,现在禁用挂载 CUDA 兼容性库。为了确保与容器工作流中的多个 CUDA 版本兼容,请务必更新 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如此处“如果您使用 CUDA 兼容层”教程下所示 - https://docs.aws.amazon.com/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat
删除
删除了 NVIDIA CUDA Toolkit
提供的用户空间库 cuobj 和 nvdisasm,以解决 2025 年 2 月 18 日版 NVIDIA CUDA Toolkit 安全公告 中披露的 CVE 漏洞
发布日期:2025-01-20
AMI 名称:
深度学习 OSS Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20250120
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20250118
更新
Nvidia 驱动程序版本从 550.127.05 升级到 550.144.03,以解决 2025 年 1 月版 NVIDIA GPU 显示器驱动程序安全公告
中披露的 CVE 漏洞
发布日期:2024-10-23
AMI 名称:
深度学习 OSS Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20241022
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20241023
更新
Nvidia 驱动程序版本从 550.90.07 升级到 550.127.05,以解决 2024 年 10 月版 NVIDIA GPU 显示器安全公告
中披露的 CVE 漏洞
发布日期:2024-09-28
AMI 名称:
深度学习 OSS Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20240928
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20240928
更新
Nvidia Container Toolkit 版本从 1.16.1 升级到 1.16.2,旨在解决安全漏洞 CVE-2024-0133
。
发布日期:2024-09-21
AMI 名称:
深度学习 OSS Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20240921
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20240921
更新
Nvidia 驱动程序和 Fabric Manager 版本从 535.183.01 升级到 550.90.07
EFA 版本从 1.32.0 升级到 1.34.0
PyTorch 版本从 2.3.0 更新为 2.3.1
增加
在 OSS Nvidia 驱动程序映像上增加了对 P5e EC2 实例的支持。
发布日期:2024-08-19
AMI 名称:
深度学习 OSS Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20240817
增加
增加了对 G6e EC2 实例
的支持。
版本 2.16.2 - 发布日期:2024-07-26
AMI 名称:
深度学习 OSS Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20240725
更新
TensorFlow 补丁版本从 2.16.1 更新为 2.16.2
修复了 2024 年 7 月 17 日发布的 DLAMI 中的 TensorFlow 次要版本号不正确的问题
深度学习 OSS Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20240717 版本无意中包含了 TensorFlow 次要版本 2.17 而不是 2.16。请确保依赖 TensorFlow 2.16 的工作流升级到最新的 DLAMI。
版本 2.16.1 - 发布日期:2024-06-10
AMI 名称:
深度学习 OSS Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20240607
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20240610
更新
Nvidia 驱动程序版本从 535.183.01 更新为 535.161.08
发布日期:2024-05-10
请参阅 DLAMI 的重要更改
AMI 名称:
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20240510
深度学习 OSS Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)20240510
增加
以下系列的初始版本:
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)系列。
深度学习 OSS Nvidia 驱动程序 AMI GPU TensorFlow 2.16(Amazon Linux 2)系列。
软件包括以下内容:
"nvidia-driver=535.161.08"
"fabric-manager=535.161.08"
"cuda=12.3"
"cudnn=8.9.7"
"efa=1.32.0"
"nccl=2.21.5"
"aws-nccl-ofi-plugin=v1.9.1-aws"
增加了 tensorflow 虚拟环境(激活命令 source /opt/tensorflow/bin/activate)。该环境包括以下内容:
"tensorflow=2.16.1"
注意
从 TF2.16 开始,tf.estimator API 已被移除。
要继续使用 tf.estimator,需要使用 TF 2.15 或更早的版本。有关更多信息,请参阅 TensorFlow 2.16.1 发布说明
为了确保与客户工作流保持兼容,我们使用环境变量 TF_USE_LEGACY_KERAS=1 将 Keras 版本固定为 2.0。如果您的工作流需要使用 Keras 3.0,请使用以下脚本从您的 TensorFlow 虚拟环境 /opt/tensorflow 中移除此环境变量:
source /opt/tensorflow/bin/activate unset TF_USE_LEGACY_KERAS