本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS 深度学习 AMI(亚马逊 Linux 2)
提示
鼓励使用单一框架(例如 PyTorch 或 TensorFlow 者)的客户使用此处 DLAMIs 提到的单一框架
如需入门帮助,请参阅DLAMI 入门。
AMI 名称格式
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 $ {XX.X}
深度学习 OSS Nvidia Driver AMI(亚马逊 Linux 2)版本 $ {XX.X}
支持的 EC2 实例
请参阅 DLAMI 的重要更改。
使用 OSS 进行深度学习 Nvidia Driver 支持 g4dn、G5、G6、Gr6、G6e、p4d、p4de、P4de、P5
使用专有 Nvidia 驱动程序进行深度学习支持 G3(不支持 G3.16x)、P3、p3dn
AMI 包括以下内容:
支持的 AWS 服务:Amazon EC2
操作系统:亚马逊 Linux 2
计算架构:x86
Conda 环境框架和 python 版本:
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2):
python3:Python 3.10
tensorflow2_p310:2.16,Python 3.10 TensorFlow
pytorch_p310:2.2,Python 3.10 PyTorch
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2):
python3:Python 3.10
tensorflow2_p310:2.16,Python 3.10 TensorFlow
pytorch_p310:2.2,Python 3.10 PyTorch
英伟达驱动程序:
OSS Nvidia 驱动程序:550.163.01
Nvidia 专有驱动程序:550.163.01
NVIDIA CUDA12 .1-12 .4 堆栈:
CUDA、NCCL 和 cudDN 安装路径:/-xx.x/ usr/local/cuda
-
默认 CUDA:12.1
路径/ usr/local/cuda 指向 CUDA12 .1
在环境变量下方更新:
LD_LIBRARY_PATH 要有/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
拥有路径/usr/local/cuda-12.1/bin/:/usr/local/cuda-11.8/include/
对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。
为 CUDA 12.1-12.4 编译的 NCCL 版本:2.22.3
NCCL 测试地点:
all_reduce、all_gather 和 reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
要运行 NCCL 测试,LD_LIBRARY_PATH 需要通过以下更新。
已 PATHs 在 LD_LIBRARY_PATH 中添加了常见内容:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。
EFA 安装程序:1.38.0
GDRCopy: 2.4
AWS OFI NCC L:1.13.2
系统位置:/usr/local/cuda-xx.x/efa
这是为了运行位于 /-cuda-xx.x.x/ 的 NCCL 测试而添加的 usr/local/cuda-xx.x/efa/test
此外, PyTorch 软件包还附带动态链接的 AWS OFI NCCL 插件作为 conda 软件 aws-ofi-nccl-dlc包, PyTorch 并将使用该软件包代替系统 OFI NCCL。 AWS
NCCL 测试地点:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
AWS CLI v2 位于/usr/local/bin/aws2 和 AWS CLI v1 位于/usr/local/bin/aws
EBS 卷类型:gp3
使用 SSM 参数查询 AMI-ID(示例区域为 us-east-1):
OSS 英伟达驱动程序:
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-oss-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
专有的英伟达驱动程序:
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
使用以下方式查询 AMI-ID AWSCLI (示例区域为 us-east-1):
OSS 英伟达驱动程序:
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
专有的英伟达驱动程序:
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
版权声明
EFA 更新从 1.37 到 1.38(2025-02-05 发布)
-
EFA 现在捆绑了 AWS OFI NCCL 插件,该插件现在可以在 /-ofi-nccl/ 中找到。opt/amazon/ofi-nccl rather than the original /opt/aws如果要更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。
Neuron conda 环境移除
-
2024 年 7 月 18 日之后 AMIs 发布的深度学习专有 Nvidia 驱动程序将在不带神经元 conda 环境的情况下出售,用于和。 PyTorch TensorFlow请改用 DLAMI 发行 DLAMIs 说明中的神经元来利用神经元环境。
移除审计 Package
-
在2024年3月26日(2024-03-26)至2024年4月12日(2024-04-12)之间发布的DLAMI是在没有审计包的情况下发货的。如果您需要此特定程序包来满足日志和监控需求,请将您的工作流程迁移到最新的 DLAMI,以便使用安装了审核包的工作流程。
Horovod
-
Horovod 已从 DLAMI 上当前 pytorch_p310 和 tensorflow2_p310 conda 环境中移除。客户将能够按照horovod 指南安装horovod
库,并将它们安装在他们的分布式训练作业 DLAMIs 上。
发布日期:2025-04-22
AMI 的名字
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 81.2
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 81.2
已更新
将 Nvidia 驱动程序从 550.144.03 版升级到 550.163.01 版,以解决 2025 年 4 月 NVIDIA G
PU CVEs 显示驱动程序安全公告中提到的问题
发布日期:2025-02-17
AMI 的名字
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 80.6
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 80.4
已更新
-
将 NVIDIA 容器工具包从版本 1.17.3 更新到 1.17.4 版
有关更多信息,请参阅此处的发行说明页面:https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.
4 在容器工具包版本 1.17.4 中,现已禁用 CUDA 兼容库的挂载。为了确保与容器工作流程中的多个 CUDA 版本兼容,请确保更新您的 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如此处 “如果您使用 CUDA 兼容层” 教程下所示-gpu-drivers.html# https://docs.aws.amazon.com/sagemaker/ latest/dg/inference collapsible-cuda-compat
已删除
删除了 NV IDIA CUDA 工具包提供的用户空间库 cuobj 和 nvd
isasm,以解决在 2025 年 2 月 18 日的 NVIDIA CUDA 工具包安全 公告中 CVEs 出现的问题
发布日期:2025-02-05
AMI 的名字
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 80.2
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 80.4
已更新
-
将 EFA 版本从 1.37.0 升级到 1.38.0
EFA 现在捆绑了 AWS OFI NCCL 插件,该插件现在可以在 /-ofi-nccl/ 中找到。opt/amazon/ofi-nccl rather than the original /opt/aws如果要更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。
发布日期:2025-01-15
AMI 的名字
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 80.3
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 80.1
已更新
将 Nvidia 驱动程序从 550.127.05 版升级到 550.144.03 版,以解决 2025 年 1 月 NVIDIA G
PU CVEs 显示驱动程序安全公告中提到的问题
发布日期:2024-12-09
AMI 的名字
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 80.1
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 79.9
已更新
将 Nvidia 容器工具包从 1.17.0 版升级到 1.17.3 版
发布日期:2024-11-11
AMI 的名字
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 79.9
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 79.7
已更新
发布日期:2024-10-22
AMI 的名字
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 79.6
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 79.6
已更新
发布日期:2024-10-03
AMI 的名字
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 79.3
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 79.3
已更新
发布日期:2024-07-18
AMI 的名字
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 78.6
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 78.7
已更新
从深度学习专有 Nvidia 驱动程序 AMI 中移除了 aws_neuron_pytorch_p38 和 aws_neuron_tensorflow_p38 conda 环境。
已从深度学习专有 Nvidia 驱动程序 AMI 中移除对 Inf1 实例系列的支持。
发布日期:2024-06-06
AMI 的名字
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 78.5
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 78.5
已更新
将 Nvidia 驱动程序版本从 535.161.08 更新到 535.183.01
发布日期:2024-05-17
AMI 的名字
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 78.1
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 78.1
已更新
在 py torch_p310 环境
中将 torchserve 从 v0.8.2 更新到 v0.11.0 。
发布日期:2024-05-07
AMI 的名字
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 78.0
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 78.0
已更新
TensorFlow 在 tensorflow2_p310 环境中,版本从 2.15 更新到 2.16。
将 EFA 版本从版本 1.30 更新到版本 1.32
将 AWS OFI NCCL 插件从 1.7.4 版更新到 1.9.1 版
-
将 Nvidia 容器工具包从版本 1.13.5 更新到 1.15.0 版
注意:版本 1.15.0 不包括 nvidia-container-runtime和 nvidia-docker2 软件包。建议按照 Nvidia 容器工具 nvidia-container-toolkit包文档直接使用软件包
。
新增了
添加了 CUDA12 .3 堆栈,包含 CUDA12 .3、NCCL 2.21.5、cudnn 8.9.7
已删除
移除了 CUDA11 /-12. CUDA12 0 处存在的 .7、.0 堆栈 usr/local/cuda-11.7 and /usr/local/cuda
作为从 1.13.5 到 1.15.0 的 Nvidia 容器工具包更新的一部分,删除了 nvidia-docker2 软件包及其命令 nvidia-docker,其中不包括和 nvidia-docker2 软件包。
nvidia-container-runtime
发布日期:2024-04-04
AMI 的名字
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 77.0
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 77.0
已更新
PyTorch 在 pytorch_p310 环境中,版本从 2.1 更新到 2.2。
对于 OSS Nvidia 驱动程序 DLAMIs,添加了 G6 和 Gr6 EC2 实例支持。有关更多信息,请参阅EC2 实例选择页面。
发布日期:2024-03-29
AMI 的名字
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 76.8
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 76.9
已更新
在专有和 OSS Nvidia 驱动程序中将 Nvidia 驱动程序从 535.104.12 更新为 535.161.08。 DLAMIs
-
每个 DLAMI 支持的新实例如下:
使用专有 Nvidia 驱动程序进行深度学习支持 G3(不支持 G3.16x)、P3、p3dn、Inf1
使用 OSS 进行深度学习 Nvidia Driver 支持 g4dn、G5、p4d、p4de。
已删除
从 Nvidia 专有驱动程序 DLAMI 中移除了 G4dn、G5、G3.16x EC2 实例支持。
版本 76.8
发布日期:2024-03- 20
AMI 的名字
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 76.8
新增了
在 AMI 中添加了 awscliv2 作为/ usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/aws 的专有 Nvidia 驱动程序 AMI
版本 76.7
发布日期:2024-03- 20
AMI 的名字
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 76.7
新增了
在 OSS Nvidi a Driver AMI usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/aws 上将 awscliv 2 添加为/
-
更新了 OSS Nvidia 驱动程序 DLAMI,支持 G4dN 和 G5,基于它目前的支持如下所示:
深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)支持 P3、p3dn、G3、G5、g4dn。
深度学习基础 OSS Nvidia Driver AMI(亚马逊 Linux 2)支持 g4dn、G5、P4、P5。
建议将 OSS Nvidia 驱动程序 DLAMIs 用于 G4dN、G5、P4、P5。
版本 76.3
发布日期:2024-02-14
已更新
TensorFlow 从 2.13.0 更新到 2.15.0
将 EFA 从 1.29.0 更新到 1.30.0
将 AWS-OFI-NCCL 从 1.7.3-aws 更新到 1.7.4-aws
在深度学习专有的 Nvidia 驱动程序 AMI 上将 Nvidia 驱动程序更新至 535.104.12
在深度学习 OSS 上将 Nvidia 驱动程序更新到 535.154.05 Nvidia 驱动程序 AMI
版本 76.2
发布日期:2024-02-02
AMI 的名字
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 76.2
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 76.4
安全性
版本 76.1
发布日期:2023-12-27
已更新
PyTorch 从 2.0.1 更新到 2.1.0
版本 75.1
发布日期:2023-11-17
请参阅 DLAMI 的重要更改
AMI 的名字
深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 75.1
深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 75.1
新增了
已更新
EFA 从 1.26.1 更新到 1.29.0
GDRCopy 已从 2.3 更新到 2.4
版本 74.4
发布日期:2023-10-27
已更新
AWS OFI NCCL 插件从 1.7.2 版更新到 1.7.3 版
使用 NCCL 版本 2.18.5 更新了 CUDA 12.0-12.1 目录
-
CUDA12.1 已更新为默认 CUDA 版本
将 LD_LIBRARY_PATH 更新为有//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
对于想要更改为任何不同的 CUDA 版本的客户,请相应地定义 LD_LIBRARY_PATH 和 PATH 变量。
将 Pillow 从 9.4.0 版本更新到 10.1.0 版本以修复所有 conda 环境中的 SNYK-PYTHON-PILLOW-5918878
将 opencv-python 从 4.8.0.74 更新到 4.8.1.78 以修复所有 conda 环境中的 SNYK-PYTHON-OPENCVPYTHON-5926695
新增了
-
内核实时补丁现已启用。实时补丁使客户能够将安全漏洞和严重错误补丁应用于正在运行的 Linux 内核,而无需重启或中断正在运行的应用程序。
请注意,对内核 5.10.192 的实时补丁支持将于 23 年 11 月 30 日结束。
欲了解更多信息,请参阅此处的官方 AWS 文档-https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/al2-live-patching.html
版本 74.0
发布日期:2023-07-19
已更新
-
TensorFlow 从 2.12 更新到 2.13
在此版本中,Horovod 已从 conda 环境中移除。有关安装 horovod 的详细信息,请参阅通知。
版本 73.1
发布日期:2023-06-12
已更新
PyTorch 从 2.0.0 更新到 2.0.1