AWS深度学习基础 GPU AMI (Ubuntu 20.04)

终止支持通知

Ubuntu Linux 20.04 LTS 于 2025 年 5 月 31 日到达其五年长期支持（LTS）窗口的终点，此后将不再获得其供应商的支持。因此，AWS深度学习基础GPU AMI（Ubuntu 20.04）将在2025年5月31日之后没有更新。先前的版本将继续可用。请注意，任何公开发布的 AMI 都将在其创建之日起 2 年 EC2 后被弃用。有关更多信息，请参阅弃用 Amazon EC2 AMI。
自该日到 2025 年 8 月 31 日的三个月内，仅针对功能性问题提供支持（不提供安全补丁）。
Ubuntu 20.04 DLAMI 的用户应迁移到 AWS Deep Learning Base GPU AMI（Ubuntu 22.04）或 AWS Deep Learning Base GPU AMI（Ubuntu 24.04）。或者，可以使用 AWS Deep Learning Base AMI（Amazon Linux 2023）。

有关入门帮助，请参阅 DLAMI 入门。

AMI 名称格式

Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）${YYYY-MM-DD}
Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）${YYYY-MM-DD}

支持的 EC2 实例

请参阅 DLAMI 的重要更改。
采用 OSS Nvidia Driver 的 Deep Learning 支持 G4dn、G5、G6、Gr6、G6e、P4d、P4de、P5、P5e、P5en
采用 Proprietary Nvidia Driver 的 Deep Learning 支持 G3（不支持 G3.16x）、P3、P3dn

该 AMI 包含以下内容：

支持的AWS服务：Amazon EC2
操作系统：Ubuntu 20.04
计算架构：x86
已为以下软件包安装了最新的可用版本：
- Linux 内核 5.15
- FSx Lustre
- Docker
- AWS CLI v2 位于/usr/local/bin/aws2 和 AWS CLI v1 位于/usr/bin/aws
- NVIDIA DCGM
- Nvidia Container Toolkit：
  - 版本命令： nvidia-container-cli-V
- Nvidia-docker2：
  - 版本命令：nvidia-docker 版本
NVIDIA Driver：
- OSS Nvidia 驱动程序：550.163.01
- Proprietary Nvidia Driver：550.163.01
NVIDIA CUDA 11.7、12.1-12.4 堆栈：
- CUDA、NCCL 和 cudDN 安装目录：/-xx.x/ usr/local/cuda
  - 示例：/usr/local/cuda-12.1/
- 已编译的 NCCL 版本：2.22.3+ .4 CUDA12
- 默认 CUDA：12.1
  - 路径/ usr/local/cuda 指向 CUDA 12.1
  - 更新以下环境变量：
    
    LD_LIBRARY_PATH 要有/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
    拥有路径/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/
    对于任何不同的 CUDA 版本，请相应地更新 LD_LIBRARY_PATH。
- NCCL 测试位置：
  - all_reduce、all_gather 和 reduce_scatter：/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
  - 要运行 NCCL 测试，需要传递包含以下更新的 LD_LIBRARY_PATH。
    
    已 PATHs 在 LD_LIBRARY_PATH 中添加了常见内容：
    
    /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
    
    对于任何不同的 CUDA 版本，请相应地更新 LD_LIBRARY_PATH。
EFA 安装程序：1.39.0
英伟达 GDRCopy：2.4
AWS OFI NCCL 插件：作为 EFA Installer-AWS 的一部分安装
- AWS OFI NCCL 现在支持单一版本的多个 NCCL 版本
- 安装路径：/已添加到 LD_L opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib IBRARY_PATH。
- 测试响铃的路径，消息传输：/opt/aws-ofi-nccl/tests
EBS 卷类型：gp3
Python：/usr/bin/python3.9
NVMe 实例存储位置（在支持的 EC2 实例上）：/opt/dlami/nvme

使用 SSM 参数查询 AMI-ID（示例区域为 us-east-1）：

OSS Nvidia Driver：


aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id  \
    --query "Parameter.Value" \
    --output text

Proprietary Nvidia Driver：


aws ssm get-parameter --region us-east-1 \
    --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \
    --query "Parameter.Value" \
    --output text

使用以下方式查询 AMI-ID AWSCLI （示例区域为 us-east-1）：

OSS Nvidia Driver：


aws ec2 describe-images --region us-east-1 \
    --owners amazon \
    --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \
    --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
    --output text

Proprietary Nvidia Driver：


aws ec2 describe-images --region us-east-1 \
    --owners amazon \
    --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \
    --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
    --output text

通知

NVIDIA Container Toolkit 1.17.4

在 Container Toolkit 版本 1.17.4 中，现在禁用挂载 CUDA 兼容性库。为了确保与容器工作流中的多个 CUDA 版本兼容，请确保更新 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库，如如果您使用 CUDA 兼容层教程中所示。

EFA 版本从 1.37 更新为 1.38（2025-02-04 发布）

EFA 现在捆绑了AWS OFI NCCL 插件，该插件现在可以在 /-ofi-nccl/ 中找到。opt/amazon/ofi-nccl rather than the original /opt/aws如果更新 LD_LIBRARY_PATH 变量，请确保正确修改 OFI NCCL 位置。

Support 政策

此 AMI 的组件（如 CUDA 版本）可能在未来版本中基于框架支持策略或为了优化深度学习容器性能、减小 AMI 大小等原因而被移除或更改，恕不另行通知。 AMIs 如果 CUDA 版本未被任何支持的框架版本使用，我们会将其从中删除。

EC2 带有多个网卡的实例

许多支持 EFA 的实例类型也有多个网卡。
DeviceIndex 对于每个网卡来说都是唯一的，并且必须是小于 ENIs p NetworkCard er 限制的非负整数。在 P5 上，p ENIs er 的数量 NetworkCard 为 2，这意味着的唯一有效值 DeviceIndex 是 0 或 1。
- 对于主网络接口（网卡索引 0、设备索引 0），创建一个 EFA（兼具 ENA 功能的 EFA）接口。您不能使用仅限 EFA 的网络接口作为主网络接口。
- 对于每个附加的网络接口，请使用下一个未使用的网卡索引、设备索引 1 以及 EFA（兼具 ENA 功能的 EFA）或仅 EFA 的网络接口，具体取决于您的使用案例，例如 ENA 带宽要求或 IP 地址空间。有关使用案例示例，请参阅 P5 实例的 EFA 配置。
- 有关更多信息，请参阅此处的《EFA 指南》。

P5/P5e 实例

P5 和 P5e 实例包含 32 个网络接口卡，可以使用以下命令启动：AWS CLI


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
       ...
      "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

P5en 实例

P5en 包含 16 个网络接口卡，可使用以下AWS CLI命令启动：


aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
       ...
      "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"

内核

使用以下命令固定内核版本：


echo linux-aws hold | sudo dpkg —set-selections
echo linux-headers-aws hold | sudo dpkg —set-selections
echo linux-image-aws hold | sudo dpkg —set-selections

我们建议用户避免更新其内核版本（除非为了安全修补原因），以确保与已安装的驱动程序和软件包版本兼容。如果用户仍希望更新，则可以运行以下命令来取消固定内核版本：
```
echo linux-aws install | sudo dpkg -set-selections
echo linux-headers-aws install | sudo dpkg -set-selections
echo linux-image-aws install | sudo dpkg -set-selections
```
对于每个新版本的 DLAMI，使用最新可用的兼容内核。

发布日期：2025-04-24

AMI 名称

Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20250424
Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20250424

已更新

将 Nvidia 驱动程序从 550.144.03 版升级到 550.163.01 版，以解决 2025 年 4 月 NVIDIA G PU CVEs 显示器驱动程序安全公告中提到的问题

发布日期：2025-02-17

AMI 名称

Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20250214
Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20250214

已更新

NVIDIA Container Toolkit 版本从 1.17.3 更新为 1.17.4
- 有关更多信息，请参阅此处的发行说明页面：https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17. 4
- 在 Container Toolkit 版本 1.17.4 中，现在禁用挂载 CUDA 兼容性库。为了确保与容器工作流中的多个 CUDA 版本兼容，请确保更新 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库，如如果您使用 CUDA 兼容层教程中所示。

已删除

删除了 NV IDIA CUDA 工具包提供的用户空间库 cuobj 和 nvd isasm，以解决在 2025 年 2 月 18 日的 NVIDIA CUDA 工具包安全公告中 CVEs 出现的问题

发布日期：2025-02-04

AMI 名称

Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20250204
Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20250204

已更新

EFA 版本从 1.37.0 升级到 1.38.0
- EFA 现在捆绑了AWS OFI NCCL 插件，该插件现在可以在 /-ofi-nccl/ 中找到。opt/amazon/ofi-nccl rather than the original /opt/aws如果更新 LD_LIBRARY_PATH 变量，请确保正确修改 OFI NCCL 位置。

已删除

emacs 软件包已从这些 DLAMIs软件包中删除。客户可以从 GNU emacs 中安装 emacs。https://www.gnu.org/software/emacs/download.html

发布日期：2025-01-17

AMI 名称

Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20250117
Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20250117

已更新

将 Nvidia 驱动程序从 550.127.05 版升级到 550.144.03 版，以解决 2025 年 1 月 NVIDIA G PU CVEs 显示器驱动程序安全公告中提到的问题

发布日期：2024-12-09

AMI 名称

Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20241206
Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20241206

已更新

Nvidia Container Toolkit 版本从 1.17.0 升级到 1.17.3

发布日期：2024-11-22

AMI 名称：Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20241122

新增了

增加了对 P5en 实例 EC2 的支持。

已更新

EFA 安装程序版本从 1.35.0 升级到 1.37.0
将AWS OFI NCCL 插件从 1.12.1-aws 版本升级到 1.13.0-aws

发布日期：2024-10-26

AMI 名称

Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20241025
Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20241025

已更新

将 Nvidia 驱动程序从 550.90.07 版升级到 550.127.05 版，以解决 2024 年 10 月 NVIDIA GPU CVEs 显示屏安全公告中提到的问题

发布日期：2024-10-03

AMI 名称：Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240927

已更新

Nvidia Container Toolkit 版本从 1.16.1 升级到 1.16.2

发布日期：2024-08-27

AMI 名称：Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240827

已更新

Nvidia 驱动程序和 Fabric Manager 版本从 535.183.01 升级到 550.90.07
EFA 版本从 1.32.0 升级到 1.34.0
针对所有 CUDA 版本将 NCCL 升级到最新版本 2.22.3
- CUDA 11.7 已从 2.16.2+ 版本升级 .7 CUDA11
- CUDA 12.1、12.2 从 2.18.5+ 升级 .2 CUDA12
- CUDA 12.3 从 2.21.5+ 版本升级 .4 CUDA12

新增了

在目录中添加了 CUDA 工具包 12.4 版本 /-12.4 usr/local/cuda
增加了对 P5e 实例 EC2 的支持。

已删除

移除了目录中存在的 CUDA Toolkit 版本 11.8 堆栈 /-11.8 usr/local/cuda

发布日期：2024-08-19

AMI 名称：Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240816

新增了

增加了对 G6e 实例 EC2 的支持。

发布日期：2024-06-06

AMI 名称

Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240606
Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20240606

已更新

Nvidia 驱动程序版本从 535.183.01 更新为 535.161.08

发布日期：2024-05-15

AMI 名称

Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240515
Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20240515

新增了

在/usr/local/cuda-11 CUDA11 .7 目录中添加了 .7 堆栈，其中有 .7、NCCL 2.16 CUDA11 .2、cudnn 8.7.0，因为 1.13 支持 .7 PyTorch CUDA11

发布日期：2024-05-02

AMI 名称

Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240502
Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20240502

已更新

EFA 版本从 1.30 更新为 1.32
将AWS OFI NCCL 插件从 1.7.4 版更新到 1.9.1 版
Nvidia Container Toolkit 版本从 1.13.5 更新为 1.15.0
- 版本 1.15.0 不包括 nvidia-container-runtime和 nvidia-docker2 软件包。建议按照 Nvidia 容器工具 nvidia-container-toolkit包文档直接使用软件包。

新增了

添加了 CUDA12 .3 堆栈，包含 CUDA12 .3、NCCL 2.21.5、cudnn 8.9.7

已删除

移除了 CUDA11 /-12 CUDA12 .0 目录中存在的 .7、.0 堆栈 usr/local/cuda-11.7 and /usr/local/cuda
作为从 1.13.5 到 1.15.0 的 Nvidia 容器工具包更新的一部分，删除了 nvidia-docker2 软件包及其命令 nvidia-docker，其中不包括和 nvidia-docker2 软件包。 nvidia-container-runtime

发布日期：2024-04-04

AMI 名称：Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240404

新增了

对于 OSS Nvidia 驱动程序 DLAMIs，添加了 G6 和 Gr6 EC2 实例支持。有关更多信息，请参阅推荐的 GPU 实例。

发布日期：2024-03-29

AMI 名称

Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240326
Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20240326

已更新

在专有和 OSS Nvidia 驱动程序中，将 Nvidia 驱动程序从 535.104.12 更新为 535.161.08。 DLAMIs
从 Nvidia 专有驱动程序 DLAMI 中移除了 G4dn、G5 EC2 实例支持。
每个 DLAMI 支持的新实例如下：
- 采用 Proprietary Nvidia Driver 的 Deep Learning 支持 G3（不支持 G3.16x）、P3、P3dn
- 采用 OSS Nvidia Driver 的 Deep Learning 支持 G4dn、G5、P4d、P4de、P5。

发布日期：2024-03-20

AMI 名称

Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240318
Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20240318

新增了

在 AMI awscliv2 中添加awscliv1为/usr/local/bin/aws2，在专有和 OSS Nvidia 驱动程序 AMI usr/bin/aws 上添加为/

发布日期：2024-03-14

AMI 名称：Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240314

已更新

更新了 OSS Nvidia Driver DLAMI，支持 G4dn 和 G5，更新后的当前支持如下：
- Deep Learning Base Proprietary Nvidia Driver AMI（Ubuntu 20.04）支持 P3、P3dn、G3、G5、G4dn。
- Deep Learning Base OSS Nvidia Driver AMI（Ubuntu 20.04）支持 G5、G4dn、P4、P5。
建议将 OSS Nvidia 驱动程序 DLAMIs 用于 G5、G4dN、P4、P5。

发布日期：2024-02-12

AMI 名称

Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240208
Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20240208

已更新

AWS OFI NCCL 插件已从 1.7.3 更新到 1.7.4

发布日期：2024-02-01

AMI 名称

Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240201
Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20240201

安全性

更新了 runc 包版本以使用针对 CVE-2024-21626 的补丁。

发布日期：2023-12-04

AMI 名称

Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20231204
Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20231204

新增了

AWS深度学习 AMI (DLAMI) 分为两个独立的组：
- 使用 Nvidia Proprietary Driver 的 DLAMI（以支持 P3、P3dn、G3、G5、G4dn）。
- 使用 Nvidia OSS Driver 以启用 EFA 的 DLAMI（以支持 P4、P5）。
有关 DLAMI 拆分的更多信息，请参阅 DLAMI 的重要更改。
AWS CLI上面的查询位于要点查询 AMI-ID 下 AWSCLI （示例区域为 us-east-1）

已更新

EFA 版本从 1.26.1 更新为 1.29.0
GDRCopy 已从 2.3 更新到 2.4

发布日期：2023-10-18

AMI 名称：Deep Learning Base GPU AMI（Ubuntu 20.04）20231018

已更新

AWS OFI NCCL 插件从 1.7.2 版更新到 1.7.3 版
CUDA 12.0-12.1 目录中的 NCCL 版本更新为 2.18.5 以与 CUDA 12.2 环境保持一致
CUDA12.1 已更新为默认 CUDA 版本
- 将 LD_LIBRARY_PATH 更新为有//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
- 对于想要切换到任何不同 CUDA 版本的客户，请相应地定义 LD_LIBRARY_PATH 和 PATH 变量。

发布日期：2023-10-02

AMI 名称：Deep Learning Base GPU AMI（Ubuntu 20.04）20231002

已更新

NVIDIA Driver 版本从 535.54.03 更新为 535.104.12
- 这个最新的驱动程序修复了在 535.54.03 版本中发现的 NVML ABI 中断性变更，以及在 535.86.10 版本中发现的影响 P5 实例上 CUDA Toolkit 的驱动程序回归问题。有关修复的详细信息，请参阅以下 NVIDIA 发布说明：
- 有关修复的详细信息，请参阅以下 NVIDIA 发布说明：
  - 4235941 - NVML ABI 中断性变更修复
  - 4228552 - CUDA Toolkit 错误修复
将 CUDA 12.2 目录下的 NCCL 版本更新为 2.18.5
EFA 版本从 1.24.1 更新为最新的 1.26.1

新增了

在/usr/local/cuda- CUDA12 12.2 处添加了 .2

已删除

移除了对 CUDA 11.5 和 CUDA 11.6 的支持

发布日期：2023-09-26

AMI 名称：Deep Learning Base GPU AMI（Ubuntu 20.04）20230926

新增了

增加了 net.naming-scheme 变更，以修复 P5 上出现的不可预测的网络接口命名问题（链接）。此更改是通过在文件的 linux 启动参数中设置 net.naming-scheme=v247 来完成的/etc/default/grub

发布日期：2023-08-30

AMI 名称：Deep Learning Base GPU AMI（Ubuntu 20.04）20230830

已更新

将 aws-ofi-nccl插件从 1.7.1 版本更新到 1.7.2 版本

发布日期：2023-08-11

AMI 名称：Deep Learning Base GPU AMI（Ubuntu 20.04）20230811

新增了

此 AMI 现在支持 P5 和以前 EC2 支持的所有实例上的多节点训练功能。
EC2 例如 P5，建议使用 NCCL 2.18，该版本已添加到 CUDA12 .0 和 .1 中。 CUDA12

已删除

移除了对 CUDA11 .3 和 CUDA11 .4 的支持。

发布日期：2023-08-04

AMI 名称：Deep Learning Base GPU AMI（Ubuntu 20.04）20230804

已更新

将AWS OFI NCCL 插件更新到 v1.7.1
将 CUDA11 .8 设为默认 PyTorch 2.0 支持 11.8，对于 P5 EC2 实例，建议使用 >= .8 CUDA11
- 将 LD_LIBRARY_PATH 更新为有//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
- 对于任何不同的 cuda 版本，请相应地定义 LD_LIBRARY_PATH。
将 CUDA 12.0、12.1 目录下的 NCCL 版本更新为 2.18.3

Fixed

修复了之前发布日期 2023-07-19 中提到的 Nvidia Fabric Manager（FM）软件包加载问题。

发布日期：2023-07-19

AMI 名称：Deep Learning Base GPU AMI（Ubuntu 20.04）20230719

已更新

EFA 版本从 1.22.1 更新为 1.24.1
NVIDIA 驱动程序版本从 525.85.12 更新为 535.54.03

新增了

通过将 max c-state 设置为 C1，增加了 c-state 变更以禁用处理器的空闲状态。此更改是通过在文件/的 linux 启动参数中设置 `intel_idle.max_cstate=1 processor.max_cstate=1` 来实现的 etc/default/grub
AWS EC2 P5 实例支持：
- 为使用单节点/ EC2 实例的工作流程添加了 P5 实例支持。在即将发布的版本中，将添加使用 EFA（弹性结构适配器）和AWS OFI NCCL 插件的多节点支持（例如用于多节点训练）。
- 请使用 CUDA>=11.8 以获得最佳性能。
- 已知问题：Nvidia Fabric Manager（FM）软件包在 P5 上加载时间较长，客户在启动 P5 实例后需要等待 2-3 分钟才能加载 FM。要检查 FM 是否已启动，请运行命令 sudo systemctl is-active nvidia-fabricmanager，在开始任何工作流之前，该命令应该返回 active 状态。将在未来的版本中修复该问题。

发布日期：2023-05-19

AMI 名称：Deep Learning Base GPU AMI（Ubuntu 20.04）20230519

已更新

EFA 更新到最新版本 1.22.1
将 CUDA 12.1 环境下的 NCCL 版本更新为 2.17.1

新增了

在/usr/local/cuda- CUDA12 12.1 处添加了 .1
通过该软件包增加了对 NVIDIA 数据中心 GPU 监视器 (DCGM) 的 datacenter-gpu-manager支持
- 您可以通过以下查询来查看此服务的状态：sudo systemctl status nvidia-dcgm
临时 NVMe 实例存储现在会自动挂载到支持的 EC2 实例，并且可以在文件夹//中访问存储。opt/dlami/nvme您可以通过下列方式来检查或修改此服务：
- 检查 NVMe 服务状态：sudo systemctl status dlami-nvme
- 要访问或修改服务，请执行以下操作：/opt/aws/dlami/bin/nvme_ephemeral_drives.sh
NVMe volumes 为需要 IOPS 性能的高吞吐量工作流程提供了最快、最高效的存储解决方案。实例费用中包含临时 NVMe 实例存储，因此此服务不会产生额外费用。
NVMe 只有支持实例存储的 EC2 实例上才会挂载实例存储。有关 NVMe 支持 EC2 实例存储的实例的信息，请参阅可用实例存储卷并验证 NVMe 是否受支持。
为了提高磁盘性能并减少首次写入的损失，您可以初始化实例存储（注意，此过程可能需要几个小时，具体取决于 EC2 实例类型）-初始化实例上的 EC2 实例存储卷
注意： NVMe 实例存储挂载在实例上，不像 EBS 那样连接到网络。在您的实例重启或停止时，这些 NVMe 卷上的数据可能会丢失。

发布日期：2023-04-17

AMI 名称：Deep Learning Base GPU AMI（Ubuntu 20.04）20230414

已更新

将 DLAMI 名称AWS从深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) $ {YYYY-MM-DD} 更新为深度学习基础 GPU AMI (Ubuntu 20.04) $ {YYYY-MM-DD}
- 请注意，自本次发布起，我们将在一个月内继续使用旧的 AMI 名称来支持最新的 DLAMI，以应对任何所需的支持。客户可以更新其操作系统包 apt-get update && apt-get upgrade 以使用安全补丁。
从 /-AWS ofi-nccl/ 更新了 OFI NCCL 插件路径 usr/local/cuda-xx.x/efa/ to /opt/aws
将 NCCL 更新为 v2.16.2 的自定义 GIT 分支，该分支由 NCCL AWS和 NCCL 团队共同撰写，适用于所有 CUDA 版本。它在AWS基础架构上的表现更好。

新增了

在/usr/local/cuda- CUDA12 12.0 处添加了 .0
添加了 AWS FSx
在 /3.9 版本中增加了对 Python 3. usr/bin/python 9 版本的支持
- 请注意，此更改并不会替换默认的系统 Python，python3 仍然指向系统 Python3.8。
- 可以使用以下命令访问 Python3.9：
```
/usr/bin/python3.9
python3.9
```

已删除

从/ CUDA11-11. usr/local/cuda x/ 中移除了.0-11.1，因为根据框架支持政策，任何支持的框架版本均未使用它们。

发布日期：2022-05-25

AMI 名称：AWS深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220523

已更新

此版本增加了对新 EC2 实例 p4de.24xlarge 的支持。
- 已更新 aws-efa-installer至 1.15.2 版本
- 已更新 aws-ofi-nccl至 1.3.0-aws 版本，其中包含 p4de.24xlarge 的拓扑。

发布日期：2022-03-25

AMI 名称：AWS深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220325

已更新

EFA 版本从 1.15.0 更新为 1.15.1

发布日期：2022-03-17

AMI 名称：AWS深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220323

新增了

初始版本

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例