

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# AWS 深度学习基础 GPU AMI (Ubuntu 20.04)
<a name="aws-deep-learning-base-gpu-ami-ubuntu-20.04"></a>

#### 终止支持通知
<a name="out-of-support-base-gpu-ami-ubuntu-20.04"></a>
+ Ubuntu Linux 20.04 LTS 于 2025 年 5 月 31 日到达其五年长期支持（LTS）窗口的终点，此后将不再获得其供应商的支持。**因此， AWS 深度学习基础GPU AMI（Ubuntu 20.04）在2025年5月31日之后将没有更新。先前的版本将继续可用。请注意，任何公开发布的 AMI 在其创建日期两年后都会被 EC2 弃用。有关更多信息，请参阅[弃用 Amazon EC2 AMI](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ami-deprecate.html)。
+ 自该日到 2025 年 8 月 31 日的三个月内，仅针对功能性问题提供支持（不提供安全补丁）。
+ Ubuntu 20.04 DLAMI 的用户应迁移到 [AWS Deep Learning Base GPU AMI（Ubuntu 22.04）](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-22-04/)或 [AWS Deep Learning Base GPU AMI（Ubuntu 24.04）](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-24-04/)。或者，可以使用 [AWS Deep Learning Base AMI（Amazon Linux 2023）](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-amazon-linux-2023/)。

有关入门帮助，请参阅 [DLAMI 入门](getting-started.md)。

#### AMI 名称格式
<a name="name-base-gpu-ami-ubuntu-20.04"></a>
+ Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）${YYYY-MM-DD}
+ Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）${YYYY-MM-DD}

#### 支持的 EC2 实例
<a name="instances-base-gpu-ami-ubuntu-20.04"></a>
+ 请参阅 [DLAMI 的重要更改](important-changes.md)。
+ 采用 OSS Nvidia Driver 的 Deep Learning 支持 G4dn、G5、G6、Gr6、G6e、P4d、P4de、P5、P5e、P5en
+ 采用 Proprietary Nvidia Driver 的 Deep Learning 支持 G3（不支持 G3.16x）、P3、P3dn

#### 该 AMI 包含以下内容：
<a name="contents-base-gpu-ami-ubuntu-20.04"></a>
+ **支持的 AWS 服务**：亚马逊 EC2
+ **操作系统**：Ubuntu 20.04
+ **计算架构**：x86
+ **已为以下软件包安装了最新的可用版本：**
  + **Linux 内核 **5.15
  + **FSx Lustre**
  + **Docker**
  + **AWS CLI v2** 位于/usr/local/bin/aws2 和 **AWS CLI v1** 位于/usr/bin/aws
  + **NVIDIA DCGM**
  + **Nvidia Container Toolkit**：
    + 版本命令： nvidia-container-cli-V
  + **Nvidia-docker2**：
    + 版本命令：nvidia-docker 版本
+ **NVIDIA Driver**：
  + OSS Nvidia 驱动程序：550.163.01
  + Proprietary Nvidia Driver：550.163.01
+ **NVIDIA CUDA 11.7、12.1-12.4 堆栈**：
  + CUDA、NCCL 和 cudDN 安装目录：/-xx.x/ usr/local/cuda
    + 示例：/usr/local/cuda-12.1/
  + 已编译的 NCCL 版本：2.22.3\+ .4 CUDA12
  + **默认 CUDA：**12.1
    + 路径/ usr/local/cuda 指向 **CUDA 12.1**
    + 更新以下环境变量：
      + LD\_LIBRARY\_PATH 要有/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86\_64-linux/lib
      + 拥有路径/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/
      + 对于任何不同的 CUDA 版本，请相应地更新 LD\_LIBRARY\_PATH。
  + **NCCL 测试位置：**
    + all\_reduce、all\_gather 和 reduce\_scatter：/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
    + 要运行 NCCL 测试，需要传递包含以下更新的 LD\_LIBRARY\_PATH。
      + 已 PATHs 在 LD\_LIBRARY\_PATH 中添加了常见内容：
        + `/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib`
      + 对于任何不同的 CUDA 版本，请相应地更新 LD\_LIBRARY\_PATH。
+ **EFA 安装程序：**1.39.0
+ **英伟达 GDRCopy：**2.4
+ **AWS OFI NCCL 插件**：是作为其中的一部分安装的 `EFA Installer-aws`
  + AWS OFI NCCL 现在支持单一版本的多个 NCCL 版本
  + **安装路径:**`/opt/aws-ofi-nccl/`. 路径已添加到 `/opt/aws-ofi-nccl/lib` LD\_LIBRARY\_PATH。
  + **测试响铃的路径**，消息传输：`/opt/aws-ofi-nccl/tests`
+ **EBS 卷类型**：gp3
+ **Python**：/usr/bin/python3.9
+ **NVMe 实例存储位置（在[支持的 EC2 实例](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/instance-store-volumes.html#available-instance-store-volumes)上）：**/opt/dlami/nvme
+ **使用 SSM 参数查询 AMI-ID（示例区域为 us-east-1）：**
  + **OSS Nvidia Driver**：

    ```
    aws ssm get-parameter --region {{us-east-1}} \
        --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id  \
        --query "Parameter.Value" \
        --output text
    ```
  + **Proprietary Nvidia Driver：**

    ```
    aws ssm get-parameter --region {{us-east-1}} \
        --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \
        --query "Parameter.Value" \
        --output text
    ```
+ **使用以下方式查询 AMI-ID AWSCLI （示例区域为 us-east-1）：**
  + **OSS Nvidia Driver：**

    ```
    aws ec2 describe-images --region {{us-east-1}} \
        --owners amazon \
        --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \
        --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
        --output text
    ```
  + **Proprietary Nvidia Driver：**

    ```
    aws ec2 describe-images --region {{us-east-1}} \
        --owners amazon \
        --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \
        --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
        --output text
    ```

#### 通知
<a name="notices-base-gpu-ami-ubuntu-20.04"></a>

**NVIDIA Container Toolkit 1.17.4**

在 Container Toolkit 版本 1.17.4 中，现在禁用挂载 CUDA 兼容性库。为了确保与容器工作流中的多个 CUDA 版本兼容，请确保更新 LD\_LIBRARY\_PATH 以包含您的 CUDA 兼容性库，如[如果您使用 CUDA 兼容层](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat)教程中所示。

**EFA 版本从 1.37 更新为 1.38（2025-02-04 发布）**

EFA 现在捆绑了 AWS OFI NCCL 插件，该插件现在可以在`/opt/amazon/ofi-nccl`而不是原版中找到。`/opt/aws-ofi-nccl/`如果更新 LD\_LIBRARY\_PATH 变量，请确保正确修改 OFI NCCL 位置。

**Support 政策**

此 AMI 的组件（如 CUDA 版本）可能在未来版本中基于[框架支持策略](support-policy.md)或为了优化[深度学习容器](https://aws.amazon.com/machine-learning/containers/)性能、减小 AMI 大小等原因而被移除或更改，恕不另行通知。 AMIs 如果 CUDA 版本未被任何支持的框架版本使用，我们会将其从中删除。

**使用多个网卡的 EC2 实例**
+ 许多支持 EFA 的实例类型也有多个网卡。
+ DeviceIndex 对于每个网卡来说都是唯一的，并且必须是小于 ENIs p NetworkCard er 限制的非负整数。在 P5 上，p ENIs er 的数量 NetworkCard 为 2，这意味着的唯一有效值 DeviceIndex 是 0 或 1。
  + 对于主网络接口（网卡索引 0、设备索引 0），创建一个 EFA（兼具 ENA 功能的 EFA）接口。您不能使用仅限 EFA 的网络接口作为主网络接口。
  + 对于每个附加的网络接口，请使用下一个未使用的网卡索引、设备索引 1 以及 EFA（兼具 ENA 功能的 EFA）或仅 EFA 的网络接口，具体取决于您的使用案例，例如 ENA 带宽要求或 IP 地址空间。有关使用案例示例，请参阅 P5 实例的 EFA 配置。
  + 有关更多信息，请参阅[此处](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-acc-inst-types.html)的《EFA 指南》。

**P5/P5e 实例**
+ P5 和 P5e 实例包含 32 个网络接口卡，可以使用以下命令启动： AWS CLI 

```
aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
       ...
      "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
```

**P5en 实例**
+ P5en 包含 16 个网络接口卡，可使用以下 AWS CLI 命令启动：

```
aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
       ...
      "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
```

**内核**
+ 使用以下命令固定内核版本：

  ```
  echo linux-aws hold | sudo dpkg —set-selections
  echo linux-headers-aws hold | sudo dpkg —set-selections
  echo linux-image-aws hold | sudo dpkg —set-selections
  ```
+ 我们建议用户避免更新其内核版本（除非为了安全修补原因），以确保与已安装的驱动程序和软件包版本兼容。如果用户仍希望更新，则可以运行以下命令来取消固定内核版本：

  ```
  echo linux-aws install | sudo dpkg -set-selections
  echo linux-headers-aws install | sudo dpkg -set-selections
  echo linux-image-aws install | sudo dpkg -set-selections
  ```
+ 对于每个新版本的 DLAMI，使用最新可用的兼容内核。

#### 发布日期：2025-04-24
<a name="2025-04-24-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称**
+ Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20250424
+ Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20250424

##### 已更新
<a name="w2aac25c13b5b5c13b5"></a>
+ 将 Nvidia 驱动程序从 550.144.03 版升级到 550.163.01 版，以解决 2025 年 4 月 [NVIDIA G](https://nvidia.custhelp.com/app/answers/detail/a_id/5630) PU CVEs 显示驱动程序安全公告中提到的问题

#### 发布日期：2025-02-17
<a name="2025-02-17-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称**
+ Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20250214
+ Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20250214

##### 已更新
<a name="w2aac25c13b5b5c15b5"></a>
+ NVIDIA Container Toolkit 版本从 1.17.3 更新为 1.17.4
  + 有关更多信息，请参阅此处的发行说明页面：[https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.](https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4) 4
  + 在 Container Toolkit 版本 1.17.4 中，现在禁用挂载 CUDA 兼容性库。为了确保与容器工作流中的多个 CUDA 版本兼容，请确保更新 LD\_LIBRARY\_PATH 以包含您的 CUDA 兼容性库，如[如果您使用 CUDA 兼容层](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat)教程中所示。

##### 已删除
<a name="w2aac25c13b5b5c15b7"></a>
+ 删除了 NV [IDIA CUDA 工具包提供的用户空间库 cuobj 和 nvd](https://docs.nvidia.com/cuda/) isasm，以解决在 2025 年 2 月 18 日的 [NVIDIA CUDA 工具包安全](https://nvidia.custhelp.com/app/answers/detail/a_id/5594)公告中 CVEs 出现的问题

#### 发布日期：2025-02-04
<a name="2025-02-04-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称**
+ Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20250204
+ Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20250204

##### 已更新
<a name="w2aac25c13b5b5c17b5"></a>
+ EFA 版本从 1.37.0 升级到 1.38.0
  + EFA 现在捆绑了 AWS OFI NCCL 插件，该插件现在可以在`/opt/amazon/ofi-nccl`而不是原版中找到。`/opt/aws-ofi-nccl/`如果更新 LD\_LIBRARY\_PATH 变量，请确保正确修改 OFI NCCL 位置。

##### 已删除
<a name="w2aac25c13b5b5c17b7"></a>
+ emacs 软件包已从这些 DLAMIs软件包中删除。客户可以从 GNU emacs 中安装 emacs。[https://www.gnu.org/software/emacs/download.html](https://www.gnu.org/software/emacs/download.html)

#### 发布日期：2025-01-17
<a name="2025-01-17-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称**
+ Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20250117
+ Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20250117

##### 已更新
<a name="w2aac25c13b5b5c19b5"></a>
+ 将 Nvidia 驱动程序从 550.127.05 版升级到 550.144.03 版，以解决 2025 年 1 月 [NVIDIA G](https://nvidia.custhelp.com/app/answers/detail/a_id/5614) PU CVEs 显示驱动程序安全公告中提到的问题

#### 发布日期：2024-12-09
<a name="2024-12-09-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称**
+ Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20241206
+ Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20241206

##### 已更新
<a name="w2aac25c13b5b5c21b5"></a>
+ Nvidia Container Toolkit 版本从 1.17.0 升级到 1.17.3

#### 发布日期：2024-11-22
<a name="2024-11-22-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：**Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20241122

##### 新增了
<a name="w2aac25c13b5b5c23b5"></a>
+ 增加了对 P5en EC2 实例的支持。

##### 已更新
<a name="w2aac25c13b5b5c23b7"></a>
+ EFA 安装程序版本从 1.35.0 升级到 1.37.0
+ 将 AWS OFI NCCL 插件从 1.12.1-aws 版本升级到 1.13.0-aws

#### 发布日期：2024-10-26
<a name="2024-10-26-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称**
+ Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20241025
+ Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20241025

##### 已更新
<a name="w2aac25c13b5b5c25b5"></a>
+ [将 Nvidia 驱动程序从 550.90.07 版本升级到 550.127.05，以解决 2024 年 10 月 NVIDIA GPU CVEs 显示屏安全公告中提到的问题](https://nvidia.custhelp.com/app/answers/detail/a_id/5586)

#### 发布日期：2024-10-03
<a name="2024-10-03-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：**Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240927

##### 已更新
<a name="w2aac25c13b5b5c27b5"></a>
+ Nvidia Container Toolkit 版本从 1.16.1 升级到 1.16.2

#### 发布日期：2024-08-27
<a name="2024-09-27-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：**Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240827

##### 已更新
<a name="w2aac25c13b5b5c29b5"></a>
+ Nvidia 驱动程序和 Fabric Manager 版本从 535.183.01 升级到 550.90.07
+ EFA 版本从 1.32.0 升级到 1.34.0
+ 针对所有 CUDA 版本将 NCCL 升级到最新版本 2.22.3
  + CUDA 11.7 已从 2.16.2\+ 版本升级 .7 CUDA11
  + CUDA 12.1、12.2 从 2.18.5\+ 升级 .2 CUDA12
  + CUDA 12.3 从 2.21.5\+ 版本升级 .4 CUDA12

##### 新增了
<a name="w2aac25c13b5b5c29b7"></a>
+ 在目录/-12.4 中添加了 CUDA 工具包版本 12.4 usr/local/cuda
+ 增加了对 **P5e EC2 实例**的支持。

##### 已删除
<a name="w2aac25c13b5b5c29b9"></a>
+ 移除了目录中存在的 CUDA Toolkit 版本 11.8 堆栈 /-11.8 usr/local/cuda

#### 发布日期：2024-08-19
<a name="2024-08-19-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：**Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240816

##### 新增了
<a name="w2aac25c13b5b5c31b5"></a>
+ 增加了对 [G6e EC2 实例](https://aws.amazon.com/ec2/instance-types/g6e/)的支持。

#### 发布日期：2024-06-06
<a name="2024-06-06-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称**
+ Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240606
+ Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20240606

##### 已更新
<a name="w2aac25c13b5b5c33b5"></a>
+ Nvidia 驱动程序版本从 535.183.01 更新为 535.161.08

#### 发布日期：2024-05-15
<a name="2024-05-15-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称**
+ Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240515
+ Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20240515

##### 新增了
<a name="w2aac25c13b5b5c35b5"></a>
+ 在/usr/local/cuda-11 CUDA11 .7 目录中添加了 .7 堆栈，其中有 .7、NCCL 2.16 CUDA11 .2、cudnn 8.7.0，因为 1.13 支持 .7 PyTorch CUDA11

#### 发布日期：2024-05-02
<a name="2024-05-02-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称**
+ Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240502
+ Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20240502

##### 已更新
<a name="w2aac25c13b5b5c37b5"></a>
+ EFA 版本从 1.30 更新为 1.32
+ 将 AWS OFI NCCL 插件从 1.7.4 版更新到 1.9.1 版
+ Nvidia Container Toolkit 版本从 1.13.5 更新为 [1.15.0](https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.15.0)
  + **版本 1.15.0 不包括 nvidia-container-runtime和 nvidia-docker2 软件包。建议按照 [Nvidia 容器工具 nvidia-container-toolkit包文档直接使用软件包](https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/sample-workload.html)。**

##### 新增了
<a name="w2aac25c13b5b5c37b7"></a>
+ 添加了 CUDA12 .3 堆栈，包含 CUDA12 .3、NCCL 2.21.5、cudnn 8.9.7

##### 已删除
<a name="w2aac25c13b5b5c37b9"></a>
+ 移除了 CUDA11 /-12 CUDA12 .0 目录中存在的 .7、.0 堆栈 usr/local/cuda-11.7 and /usr/local/cuda
+ [https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.15.0](https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.15.0) nvidia-container-runtime

#### 发布日期：2024-04-04
<a name="2024-04-04-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：**Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240404

##### 新增了
<a name="w2aac25c13b5b5c39b5"></a>
+ 对于 OSS Nvidia Driver DLAMI，增加了 G6 和 Gr6 EC2 实例支持。有关更多信息，请参阅[推荐的 GPU 实例](gpu.md)。

#### 发布日期：2024-03-29
<a name="2024-03-29-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称**
+ Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240326
+ Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20240326

##### 已更新
<a name="w2aac25c13b5b5c41b5"></a>
+ 在专有和 OSS Nvidia 驱动程序中将 Nvidia 驱动程序从 535.104.12 更新为 535.161.08。 DLAMIs
+ 从 Proprietary Nvidia Driver DLAMI 中移除了 G4dn、G5 EC2 实例支持。
+ 每个 DLAMI 支持的新实例如下：
  + 采用 Proprietary Nvidia Driver 的 Deep Learning 支持 G3（不支持 G3.16x）、P3、P3dn
  + 采用 OSS Nvidia Driver 的 Deep Learning 支持 G4dn、G5、P4d、P4de、P5。

#### 发布日期：2024-03-20
<a name="2024-03-20-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称**
+ Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240318
+ Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20240318

##### 新增了
<a name="w2aac25c13b5b5c43b5"></a>
+ 在 AMI `awscliv2` 中添加`awscliv1`为/usr/local/bin/aws2，在专有和 OSS Nvidia 驱动程序 AMI usr/bin/aws 上添加为/

#### 发布日期：2024-03-14
<a name="2024-03-14-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：**Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240314

##### 已更新
<a name="w2aac25c13b5b5c45b5"></a>
+ 更新了 OSS Nvidia Driver DLAMI，支持 G4dn 和 G5，更新后的当前支持如下：
  + Deep Learning Base Proprietary Nvidia Driver AMI（Ubuntu 20.04）支持 P3、P3dn、G3、G5、G4dn。
  + Deep Learning Base OSS Nvidia Driver AMI（Ubuntu 20.04）支持 G5、G4dn、P4、P5。
+ 建议将 OSS Nvidia 驱动程序 DLAMIs 用于 G5、G4dN、P4、P5。

#### 发布日期：2024-02-12
<a name="2024-02-12-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称**
+ Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240208
+ Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20240208

##### 已更新
<a name="w2aac25c13b5b5c47b5"></a>
+ AWS OFI NCCL 插件已从 1.7.3 更新到 1.7.4

#### 发布日期：2024-02-01
<a name="2024-02-01-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称**
+ Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20240201
+ Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20240201

##### 安全性
<a name="w2aac25c13b5b5c49b5"></a>
+ 更新了 runc 包版本以使用针对 [CVE-2024-21626](https://nvd.nist.gov/vuln/detail/CVE-2024-21626) 的补丁。

#### 发布日期：2023-12-04
<a name="2023-12-04-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称**
+ Deep Learning Base OSS Nvidia Driver GPU AMI（Ubuntu 20.04）20231204
+ Deep Learning Base Proprietary Nvidia Driver GPU AMI（Ubuntu 20.04）20231204

##### 新增了
<a name="w2aac25c13b5b5c51b5"></a>
+ AWS 深度学习 AMI (DLAMI) 分为两个独立的组：
  + 使用 Nvidia Proprietary Driver 的 DLAMI（以支持 P3、P3dn、G3、G5、G4dn）。
  + 使用 Nvidia OSS Driver 以启用 EFA 的 DLAMI（以支持 P4、P5）。
+ 有关 DLAMI 拆分的更多信息，请参阅 [DLAMI 的重要更改](important-changes.md)。
+ AWS CLI 上面的查询位于要点查询 **AMI-ID 下 AWSCLI （示例区域为 us-east-1**）

##### 已更新
<a name="w2aac25c13b5b5c51b7"></a>
+ EFA 版本从 1.26.1 更新为 1.29.0
+ GDRCopy 已从 2.3 更新到 2.4

#### 发布日期：2023-10-18
<a name="2023-10-18-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：**Deep Learning Base GPU AMI（Ubuntu 20.04）20231018

##### 已更新
<a name="w2aac25c13b5b5c53b5"></a>
+ AWS OFI NCCL 插件从 1.7.2 版更新到 1.7.3 版
+ CUDA 12.0-12.1 目录中的 NCCL 版本更新为 2.18.5 以与 CUDA 12.2 环境保持一致
+ CUDA12.1 已更新为默认 CUDA 版本
  + 将 LD\_LIBRARY\_PATH 更新为有//usr/local/cuda-12.1/targets/x86\_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
  + 对于想要切换到任何不同 CUDA 版本的客户，请相应地定义 LD\_LIBRARY\_PATH 和 PATH 变量。

#### 发布日期：2023-10-02
<a name="2023-10-02-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：**Deep Learning Base GPU AMI（Ubuntu 20.04）20231002

##### 已更新
<a name="w2aac25c13b5b5c55b5"></a>
+ NVIDIA Driver 版本从 535.54.03 更新为 535.104.12
  + 这个最新的驱动程序修复了在 535.54.03 版本中发现的 NVML ABI 中断性变更，以及在 535.86.10 版本中发现的影响 P5 实例上 CUDA Toolkit 的驱动程序回归问题。有关修复的详细信息，请参阅以下 NVIDIA 发布说明：
  + 有关修复的详细信息，请参阅以下 NVIDIA 发布说明：
    + [4235941](https://docs.nvidia.com/datacenter/tesla/tesla-release-notes-535-104-05/index.html) - NVML ABI 中断性变更修复
    + [4228552](https://docs.nvidia.com/datacenter/tesla/tesla-release-notes-535-104-12/index.html) - CUDA Toolkit 错误修复
+ 将 CUDA 12.2 目录下的 NCCL 版本更新为 2.18.5
+ EFA 版本从 1.24.1 更新为最新的 1.26.1

##### 新增了
<a name="w2aac25c13b5b5c55b7"></a>
+ 在/usr/local/cuda- CUDA12 12.2 处添加了 .2

##### 已删除
<a name="w2aac25c13b5b5c55b9"></a>
+ 移除了对 CUDA 11.5 和 CUDA 11.6 的支持

#### 发布日期：2023-09-26
<a name="2023-09-26-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：**Deep Learning Base GPU AMI（Ubuntu 20.04）20230926

##### 新增了
<a name="w2aac25c13b5b5c57b5"></a>
+ 增加了 net.naming-scheme 变更，以修复 P5 上出现的不可预测的网络接口命名问题（[链接](https://bugs.launchpad.net/ubuntu/+source/systemd/+bug/1945225)）。此更改是通过在文件的 linux 启动参数中设置 net.naming-scheme=v247 来完成的/etc/default/grub

#### 发布日期：2023-08-30
<a name="2023-08-30-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：**Deep Learning Base GPU AMI（Ubuntu 20.04）20230830

##### 已更新
<a name="w2aac25c13b5b5c59b5"></a>
+ 将`aws-ofi-nccl`插件从 1.7.1 版本更新到 1.7.2 版本

#### 发布日期：2023-08-11
<a name="2023-08-11-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：**Deep Learning Base GPU AMI（Ubuntu 20.04）20230811

##### 新增了
<a name="w2aac25c13b5b5c61b5"></a>
+ 此 AMI 现在支持 P5 和所有以前支持的 EC2 实例上的多节点训练功能。
+ 对于 P5 EC2 实例，建议使用 NCCL 2.18，该版本已添加到 CUDA12 .0 和 .1 中。 CUDA12

##### 已删除
<a name="w2aac25c13b5b5c61b7"></a>
+ 移除了对 CUDA11 .3 和 CUDA11 .4 的支持。

#### 发布日期：2023-08-04
<a name="2023-08-04-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：**Deep Learning Base GPU AMI（Ubuntu 20.04）20230804

##### 已更新
<a name="w2aac25c13b5b5c63b5"></a>
+ 将 AWS OFI NCCL 插件更新到 v1.7.1
+ 将 CUDA11.8 设为默认 PyTorch 2.0 支持 11.8，对于 P5 EC2 实例，建议使用 >= .8 CUDA11
  + 将 LD\_LIBRARY\_PATH 更新为有//usr/local/cuda-11.8/targets/x86\_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
  + 对于任何不同的 cuda 版本，请相应地定义 LD\_LIBRARY\_PATH。
+ 将 CUDA 12.0、12.1 目录下的 NCCL 版本更新为 2.18.3

##### Fixed
<a name="w2aac25c13b5b5c63b7"></a>
+ 修复了之前发布日期**** 2023-07-19 中提到的 Nvidia Fabric Manager（FM）软件包加载问题。

#### 发布日期：2023-07-19
<a name="2023-07-19-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：**Deep Learning Base GPU AMI（Ubuntu 20.04）20230719

##### 已更新
<a name="w2aac25c13b5b5c65b5"></a>
+ EFA 版本从 1.22.1 更新为 1.24.1
+ NVIDIA 驱动程序版本从 525.85.12 更新为 535.54.03

##### 新增了
<a name="w2aac25c13b5b5c65b7"></a>
+ 通过将 max c-state 设置为 C1，增加了 c-state 变更以禁用处理器的空闲状态。此更改是通过在文件/的 linux 启动参数中设置 `intel\_idle.max\_cstate=1 processor.max\_cstate=1` 来实现的 etc/default/grub
+ AWS EC2 P5 实例支持：
  + 为使用单节点/实例的工作流程增加了 P5 EC2 实例支持。在即将发布的版本中，将添加使用 EFA（弹性结构适配器）和 AWS OFI NCCL 插件的多节点支持（例如用于多节点训练）。
  + 请使用 CUDA>=11.8 以获得最佳性能。
  + 已知问题：Nvidia Fabric Manager（FM）软件包在 P5 上加载时间较长，客户在启动 P5 实例后需要等待 2-3 分钟才能加载 FM。要检查 FM 是否已启动，请运行命令 sudo systemctl is-active nvidia-fabricmanager，在开始任何工作流之前，该命令应该返回 active 状态。将在未来的版本中修复该问题。

#### 发布日期：2023-05-19
<a name="2023-05-19-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：**Deep Learning Base GPU AMI（Ubuntu 20.04）20230519

##### 已更新
<a name="w2aac25c13b5b5c67b5"></a>
+ EFA 更新到最新版本 1.22.1
+ 将 CUDA 12.1 环境下的 NCCL 版本更新为 2.17.1

##### 新增了
<a name="w2aac25c13b5b5c67b7"></a>
+ 在/usr/local/cuda- CUDA12 12.1 处添加了 .1
+ 通过该软件包增加了对 [NVIDIA 数据中心 GPU 监视器 (DCGM)](https://developer.nvidia.com/dcgm) 的 datacenter-gpu-manager支持
  + 您可以通过以下查询来查看此服务的状态：sudo systemctl status nvidia-dcgm
+ 临时 NVMe 实例存储现在可以自动挂载到支持的 EC2 实例，并且可以在文件夹//中访问存储。opt/dlami/nvme您可以通过下列方式来检查或修改此服务：
  + 检查 NVMe 服务状态：sudo systemctl status dlami-nvme
  + 要访问或修改服务，请执行以下操作：`/opt/aws/dlami/bin/nvme_ephemeral_drives.sh`
+ NVMe volumes 为需要 IOPS 性能的高吞吐量工作流程提供了最快、最高效的存储解决方案。实例费用中包含临时 NVMe 实例存储，因此此服务不会产生额外费用。
+ NVMe 实例存储只会被挂载到支持它们的 EC2 实例上。有关 NVMe 支持实例存储的 EC2 实例的信息，请参阅[可用实例存储卷](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/instance-store-volumes.html#available-instance-store-volumes)并验证 NVMe 是否受支持。
+ 为了提高磁盘性能并减少首次写入的损失，您可以初始化实例存储（注意，此过程可能需要几个小时，具体取决于 EC2 实例类型）- [在 EC2 实例上初始化实例存储卷](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/disk-performance.html)。
+ **注意**： NVMe 实例存储挂载在实例上，不像 EBS 那样连接到网络。在您的实例重启或停止时，这些 NVMe 卷上的数据可能会丢失。

#### 发布日期：2023-04-17
<a name="2023-04-17-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：**Deep Learning Base GPU AMI（Ubuntu 20.04）20230414

##### 已更新
<a name="w2aac25c13b5b5c69b5"></a>
+ 将 DLAMI 名称 AWS 从深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) $ {YYYY-MM-DD} 更新为深度学习基础 GPU AMI (Ubuntu 20.04) $ {YYYY-MM-DD} $ {YYY-MM-DD}
  + 请注意，自本次发布起，我们将在一个月内继续使用旧的 AMI 名称来支持最新的 DLAMI，以应对任何所需的支持。客户可以更新其操作系统包 apt-get update && apt-get upgrade 以使用安全补丁。
+ 已将 AWS OFI NCCL 插件路径从更新为 `/usr/local/cuda-xx.x/efa/` `/opt/aws-ofi-nccl/`
+ 将 NCCL 更新为 v2.16.2 的[自定义 GIT 分支](https://github.com/NVIDIA/nccl/tree/inc_nsteps)，该分支由 NCCL AWS 和 NCCL 团队共同撰写，适用于所有 CUDA 版本。它在 AWS 基础架构上的表现更好。

##### 新增了
<a name="w2aac25c13b5b5c69b7"></a>
+ 在/usr/local/cuda- CUDA12 12.0 处添加了 .0
+ 添加了 [AWS FSx](https://aws.amazon.com/fsx/)
+ 在 /3.9 版本中增加了对 Python 3. usr/bin/python 9 版本的支持
  + 请注意，此更改并不会替换默认的系统 Python，python3 仍然指向系统 Python3.8。
  + 可以使用以下命令访问 Python3.9：

    ```
    /usr/bin/python3.9
    python3.9
    ```

##### 已删除
<a name="w2aac25c13b5b5c69b9"></a>
+ [从/ CUDA11-11. usr/local/cuda x/ 中移除了.0-11.1，因为根据框架支持政策，任何支持的框架版本均未使用它们。](support-policy.md)

#### 发布日期：2022-05-25
<a name="2022-05-25-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：** AWS 深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220523

##### 已更新
<a name="w2aac25c13b5b5c71b5"></a>
+ 此版本增加了对新 EC2 实例 p4de.24xlarge 的支持。
  + 已更新`aws-efa-installer`至 1.15.2 版本
  + 已更新`aws-ofi-nccl`至包含 p4d `1.3.0-aws` e.24xlarge 拓扑的版本。

#### 发布日期：2022-03-25
<a name="2022-03-25-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：** AWS 深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220325

##### 已更新
<a name="w2aac25c13b5b5c73b5"></a>
+ EFA 版本从 1.15.0 更新为 1.15.1

#### 发布日期：2022-03-17
<a name="2022-03-17-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名称：** AWS 深度学习基础 AMI GPU CUDA 11 (Ubuntu 20.04) 20220323

##### 新增了
<a name="w2aac25c13b5b5c75b5"></a>
+ 初始版本