

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# AWS Deep Learning Base GPU AMI (Ubuntu 20.04)
<a name="aws-deep-learning-base-gpu-ami-ubuntu-20.04"></a>

#### 不支援通知
<a name="out-of-support-base-gpu-ami-ubuntu-20.04"></a>
+ Ubuntu Linux 20.04 LTS 將於 2025 年 5 月 31 日結束其五年 LTS 時段，且其廠商將不再支援此時段。* *因此， AWS 深度學習基礎 GPU AMI (Ubuntu 20.04) 在 2025 年 5 月 31 日之後不會有任何更新。先前的版本將繼續可用。請注意，任何公開發行的 AMI 都會在建立日期的 2 年後遭 EC2 取代。如需詳細資訊[，請參閱棄用 Amazon EC2 AMI](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ami-deprecate.html)。
+ 在 3 個月內，直到 2025 年 8 月 31 日為止，僅針對功能問題 （而非安全性修補程式） 提供支援。
+ Ubuntu 20.04 DLAMI 的使用者應移至 [AWS Deep Learning Base GPU AMI (Ubuntu 22.04)](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-22-04/) 或 [AWS Deep Learning Base GPU AMI (Ubuntu 24.04)。](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-ubuntu-24-04/)或者，也可以使用[AWS 深度學習基礎 AMI (Amazon Linux 2023)](https://aws.amazon.com/releasenotes/aws-deep-learning-base-gpu-ami-amazon-linux-2023/)。

如需入門說明，請參閱 [DLAMI 入門](getting-started.md)。

#### AMI 名稱格式
<a name="name-base-gpu-ami-ubuntu-20.04"></a>
+ 深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) ${YYYY-MM-DD}
+ Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) ${YYYY-MM-DD}

#### 支援的 EC2 執行個體
<a name="instances-base-gpu-ami-ubuntu-20.04"></a>
+ 請參閱 [DLAMI 的重要變更](important-changes.md)。
+ 使用 OSS Nvidia Driver 的深度學習支援 G4dn、G5、G6、Gr6、G6e、P4d、P4de、P5、P5e、P5en
+ Deep Learning with Proprietary Nvidia Driver 支援 G3 （不支援 G3.16x)、P3、P3dn

#### AMI 包含下列項目：
<a name="contents-base-gpu-ami-ubuntu-20.04"></a>
+ **支援服務 AWS **：Amazon EC2
+ **作業系統**：Ubuntu 20.04
+ **運算架構**：x86
+ **下列套件已安裝最新的可用版本：**
  + **Linux 核心 **5.15
  + **FSx Lustre**
  + **Docker**
  + **AWS CLI v2** 位於 /usr/local/bin/aws2，**AWS CLI v1** 位於 /usr/bin/aws
  + **NVIDIA DCGM**
  + **Nvidia 容器工具組**：
    + 版本命令：nvidia-container-cli -V
  + **Nvidia-docker2**：
    + 版本命令：nvidia-docker 版本
+ **NVIDIA 驅動程式**：
  + OSS Nvidia 驅動程式：550.163.01
  + 專屬 Nvidia 驅動程式：550.163.01
+ **NVIDIA CUDA 11.7、12.1-12.4 堆疊**：
  + CUDA、NCCL 和 cuDDN 安裝目錄：/usr/local/cuda-xx.x/
    + 範例：/usr/local/cuda-12.1/
  + 編譯的 NCCL 版本：2.22.3\+CUDA12.4
  + **預設 CUDA：**12.1
    + PATH /usr/local/cuda 指向** CUDA 12.1**
    + 已更新下列 env vars：
      + LD\_LIBRARY\_PATH 具有 /usr/local/cuda-12.1/lib：/usr/local/cuda-12.1/lib64：/usr/local/cuda-12.1：/usr/local/cuda-12.1/targets/x86\_64-linux/lib
      + PATH 讓 /usr/local/cuda-12.1/bin/：/usr/local/cuda-12.1/include/
      + 對於任何不同的 CUDA 版本，請相應地更新 LD\_LIBRARY\_PATH。
  + **NCCL 測試位置：**
    + all\_reduce、all\_gather 和 reduce\_scatter：/usr/local/cuda-xx.x/efa/test-cuda-xx.x/
    + 若要執行 NCCL 測試，LD\_LIBRARY\_PATH 需要通過以下更新。
      + 常見 PATHs已新增至 LD\_LIBRARY\_PATH：
        + `/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib`
      + 對於任何不同的 CUDA 版本，請相應地更新 LD\_LIBRARY\_PATH。
+ **EFA 安裝程式**：1.39.0
+ **Nvidia GDRCopy：**2.4
+ **AWS OFI NCCL 外掛程式**： 已安裝為 的一部分 `EFA Installer-aws`
  + AWS OFI NCCL 現在支援使用單一建置的多個 NCCL 版本
  + **安裝路徑：**`/opt/aws-ofi-nccl/`。路徑`/opt/aws-ofi-nccl/lib`會新增至 LD\_LIBRARY\_PATH。
  + 測試 ring， message\_transfer **的路徑**： `/opt/aws-ofi-nccl/tests`
+ **EBS 磁碟區類型**：gp3
+ **Python**：/usr/bin/python3.9
+ **NVMe 執行個體存放區位置 [（在支援的 EC2 執行個體](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/instance-store-volumes.html#available-instance-store-volumes)上）：**/opt/dlami/nvme
+ **使用 SSM 參數查詢 AMI-ID （範例區域為 us-east-1)：**
  + **OSS Nvidia 驅動程式：**

    ```
    aws ssm get-parameter --region {{us-east-1}} \
        --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id  \
        --query "Parameter.Value" \
        --output text
    ```
  + **專屬 Nvidia 驅動程式：**

    ```
    aws ssm get-parameter --region {{us-east-1}} \
        --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \
        --query "Parameter.Value" \
        --output text
    ```
+ **使用 AWSCLI 查詢 AMI-ID （範例區域為 us-east-1)：**
  + **OSS Nvidia 驅動程式：**

    ```
    aws ec2 describe-images --region {{us-east-1}} \
        --owners amazon \
        --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \
        --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
        --output text
    ```
  + **專屬 Nvidia 驅動程式：**

    ```
    aws ec2 describe-images --region {{us-east-1}} \
        --owners amazon \
        --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \
        --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
        --output text
    ```

#### 注意
<a name="notices-base-gpu-ami-ubuntu-20.04"></a>

**NVIDIA Container Toolkit 1.17.4**

在 Container Toolkit 1.17.4 版中，CUDA Compat 程式庫的掛載現已停用。為了確保與容器工作流程上的多個 CUDA 版本相容，請確保您更新 LD\_LIBRARY\_PATH 以包含 CUDA 相容性程式庫，如[如果您使用 CUDA 相容性層](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat)教學中所示。

**從 1.37 到 1.38 的 EFA 更新 ( 發行2025-02-04)**

EFA 現在會綁定 AWS OFI NCCL 外掛程式，此外掛程式現在可在 中找到，`/opt/amazon/ofi-nccl`而非原始的 `/opt/aws-ofi-nccl/`。如果更新您的 LD\_LIBRARY\_PATH 變數，請確保您正確修改 OFI NCCL 位置。

**支援政策**

此 AMI 如 CUDA 版本的元件可能會根據[架構支援政策](support-policy.md)，或最佳化[深度學習容器](https://aws.amazon.com/machine-learning/containers/)的效能，或減少未來版本 中的 AMI 大小，而無須事先通知。如果任何支援的架構版本未使用 CUDA 版本，我們會從 AMIs 中移除這些版本。

**具有多個網路卡的 EC2 執行個體**
+ 許多支援 EFA 的執行個體類型也具有多個網路卡。
+ DeviceIndex 對每個網路卡都是唯一的，而且必須是小於每個 NetworkCard ENIs 限制的非負整數。在 P5 上，每個 NetworkCard ENIs 數目為 2，這表示 DeviceIndex 的唯一有效值為 0 或 1。
  + 對於主要網路介面 （網路卡索引 0、裝置索引 0)，建立 EFA (EFA 搭配 ENA) 介面。您不能使用僅限 EFA 的網路介面做為主要網路介面。
  + 對於每個額外的網路界面，請使用下一個未使用的網路卡索引、裝置索引 1，以及 EFA (EFA 搭配 ENA) 或僅限 EFA 網路界面，視您的使用案例而定，例如 ENA 頻寬需求或 IP 地址空間。如需範例使用案例，請參閱 P5 執行個體的 EFA 組態。
  + 如需詳細資訊，請參閱[此處](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-acc-inst-types.html)的 EFA 指南。

**P5/P5e 執行個體**
+ P5 和 P5e 執行個體包含 32 張網路介面卡，可以使用下列 AWS CLI 命令啟動：

```
aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
       ...
      "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
```

**P5en 執行個體**
+ P5en 包含 16 張網路介面卡，可以使用下列 AWS CLI 命令啟動：

```
aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
       ...
      "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
```

**核心**
+ 核心版本使用 命令鎖定：

  ```
  echo linux-aws hold | sudo dpkg —set-selections
  echo linux-headers-aws hold | sudo dpkg —set-selections
  echo linux-image-aws hold | sudo dpkg —set-selections
  ```
+ 我們建議使用者避免更新其核心版本 （除非因為安全修補程式），以確保與已安裝的驅動程式和套件版本相容。如果使用者仍想要更新，可以執行下列命令來取消鎖定核心版本：

  ```
  echo linux-aws install | sudo dpkg -set-selections
  echo linux-headers-aws install | sudo dpkg -set-selections
  echo linux-image-aws install | sudo dpkg -set-selections
  ```
+ 對於每個新版本的 DLAMI，會使用最新的可用相容核心。

#### 發行日期：2025-04-24
<a name="2025-04-24-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱**
+ 深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20250424
+ Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20250424

##### Updated
<a name="w2aac25c13b5b5c13b5"></a>
+ 已將 Nvidia 驅動程式從 550.144.03 版升級至 550.163.01，以解決 [2025 年 4 月 NVIDIA GPU 顯示驅動程式安全公告](https://nvidia.custhelp.com/app/answers/detail/a_id/5630)中存在的 CVEs 

#### 發行日期：2025-02-17
<a name="2025-02-17-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱**
+ 深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20250214
+ Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20250214

##### Updated
<a name="w2aac25c13b5b5c15b5"></a>
+ 將 NVIDIA Container Toolkit 從 1.17.3 版更新至 1.17.4 版
  + 如需詳細資訊，請參閱此處的版本備註頁面：https：//[https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4](https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4)
  + 在 Container Toolkit 1.17.4 版中，CUDA Compat 程式庫的掛載現已停用。為了確保與容器工作流程上的多個 CUDA 版本相容，請確保您更新 LD\_LIBRARY\_PATH 以包含 CUDA 相容性程式庫，如[如果您使用 CUDA 相容性層](https://docs.aws.amazon.com/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat)教學中所示。

##### 已移除
<a name="w2aac25c13b5b5c15b7"></a>
+ 移除 [NVIDIA CUDA 工具組](https://docs.nvidia.com/cuda/)提供的使用者空間程式庫 cuobj 和 nvdisasm，以解決 [2025 年 2 月 18 日 NVIDIA CUDA 工具組安全公告](https://nvidia.custhelp.com/app/answers/detail/a_id/5594)中存在的 CVEs 

#### 發行日期：2025-02-04
<a name="2025-02-04-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱**
+ 深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20250204
+ Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20250204

##### Updated
<a name="w2aac25c13b5b5c17b5"></a>
+ 已將 EFA 版本從 1.37.0 升級至 1.38.0
  + EFA 現在會綁定 AWS OFI NCCL 外掛程式，此外掛程式現在可在 中找到，`/opt/amazon/ofi-nccl`而非原始的 `/opt/aws-ofi-nccl/`。如果更新您的 LD\_LIBRARY\_PATH 變數，請確保您正確修改 OFI NCCL 位置。

##### 已移除
<a name="w2aac25c13b5b5c17b7"></a>
+ 已從這些 DLAMIs 中移除 emacs 套件。客戶可以從 GNU emacs https：//[https://www.gnu.org/software/emacs/download.html](https://www.gnu.org/software/emacs/download.html) 安裝 emacs。

#### 發行日期：2025-01-17
<a name="2025-01-17-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱**
+ 深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20250117
+ Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20250117

##### Updated
<a name="w2aac25c13b5b5c19b5"></a>
+ 已將 Nvidia 驅動程式從 550.127.05 版升級至 550.144.03，以解決 [2025 年 1 月 NVIDIA GPU 顯示驅動程式安全公告](https://nvidia.custhelp.com/app/answers/detail/a_id/5614)中存在的 CVEs 

#### 發行日期：2024-12-09
<a name="2024-12-09-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱**
+ Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241206
+ Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20241206

##### Updated
<a name="w2aac25c13b5b5c21b5"></a>
+ 已將 Nvidia Container Toolkit 從 1.17.0 版升級至 1.17.3 版

#### 發行日期：2024-11-22
<a name="2024-11-22-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：**深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20241122

##### 已新增
<a name="w2aac25c13b5b5c23b5"></a>
+ 新增對 P5en EC2 執行個體的支援。

##### Updated
<a name="w2aac25c13b5b5c23b7"></a>
+ 已將 EFA 安裝程式從 1.35.0 版升級至 1.37.0 版
+ 將 AWS OFI NCCL 外掛程式從 1.12.1-aws 版升級至 1.13.0-aws

#### 發行日期：2024-10-26
<a name="2024-10-26-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱**
+ Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241025
+ Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20241025

##### Updated
<a name="w2aac25c13b5b5c25b5"></a>
+ 已將 Nvidia 驅動程式從 550.90.07 版升級至 550.127.05，以解決 [2024 年 10 月 NVIDIA GPU 顯示安全公告](https://nvidia.custhelp.com/app/answers/detail/a_id/5586)中存在的 CVEs 

#### 發行日期：2024-10-03
<a name="2024-10-03-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：**深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240927

##### Updated
<a name="w2aac25c13b5b5c27b5"></a>
+ 已將 Nvidia Container Toolkit 從 1.16.1 版升級至 1.16.2 版

#### 發行日期：2024-08-27
<a name="2024-09-27-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：**深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240827

##### Updated
<a name="w2aac25c13b5b5c29b5"></a>
+ 將 Nvidia 驅動程式和 Fabric Manager 從 535.183.01 版升級至 550.90.07
+ 已將 EFA 版本從 1.32.0 升級至 1.34.0
+ 已將 NCCL 升級至所有 CUDA 版本的最新版本 2.22.3
  + CUDA 11.7 從 2.16.2\+CUDA11.7 版升級
  + CUDA 12.1、12.2 從 2.18.5\+CUDA12.2 升級
  + CUDA 12.3 從 2.21.5\+CUDA12.4 版升級

##### 已新增
<a name="w2aac25c13b5b5c29b7"></a>
+ 在目錄 /usr/local/cuda-12.4 中新增 CUDA 工具組 12.4 版
+ 新增對 **P5e EC2 執行個體**的支援。

##### 已移除
<a name="w2aac25c13b5b5c29b9"></a>
+ 已移除目錄 /usr/local/cuda-11.8 中存在的 CUDA Toolkit 11.8 版堆疊

#### 發行日期：2024-08-19
<a name="2024-08-19-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：**深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240816

##### 已新增
<a name="w2aac25c13b5b5c31b5"></a>
+ 新增對 [G6e EC2 執行個體](https://aws.amazon.com/ec2/instance-types/g6e/)的支援。

#### 發行日期：2024-06-06
<a name="2024-06-06-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱**
+ 深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240606
+ Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240606

##### Updated
<a name="w2aac25c13b5b5c33b5"></a>
+ 將 Nvidia 驅動程式版本從 535.183.01 更新至 535.161.08

#### 發行日期：2024-05-15
<a name="2024-05-15-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱**
+ Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240515
+ Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240515

##### 已新增
<a name="w2aac25c13b5b5c35b5"></a>
+ 在目錄 /usr/local/cuda-11.7 新增了 CUDA11.7 堆疊搭配 CUDA11.7、NCCL 2.16.2、CuDNN 8.7.0，因為 PyTorch 1.13 支援 CUDA11.7

#### 發行日期：2024-05-02
<a name="2024-05-02-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱**
+ 深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240502
+ Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240502

##### Updated
<a name="w2aac25c13b5b5c37b5"></a>
+ 將 EFA 版本從 1.30 版更新至 1.32 版
+ 將 AWS OFI NCCL 外掛程式從 1.7.4 版更新至 1.9.1 版
+ 將 Nvidia 容器工具組從 1.13.5 版更新至 [1.15.0](https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.15.0) 版
  + **1.15.0 版不包含 nvidia-container-runtime 和 nvidia-docker2 套件。建議遵循 Nvidia 容器工具組文件，直接使用 nvidia-container-toolkit 套件。 [https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/sample-workload.html](https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/sample-workload.html)**

##### 已新增
<a name="w2aac25c13b5b5c37b7"></a>
+ 新增 CUDA12.3 堆疊與 CUDA12.3、NCCL 2.21.5、CuDNN 8.9.7

##### 已移除
<a name="w2aac25c13b5b5c37b9"></a>
+ 已移除 CUDA11.7、存在於 /usr/local/cuda-11.7 和 /usr/local/cuda-12.0 目錄中的 CUDA12.0 堆疊usr/local/cuda-12
+ 移除了 nvidia-docker2 套件及其命令 nvidia-docker，作為 Nvidia 容器工具組從 1.13.5 更新至 [1.15.0](https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.15.0) 的一部分，其中**不包含** nvidia-container-runtime 和 nvidia-docker2 套件。

#### 發行日期：2024-04-04
<a name="2024-04-04-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：**深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240404

##### 已新增
<a name="w2aac25c13b5b5c39b5"></a>
+ 對於 OSS Nvidia 驅動程式 DLAMIs，新增了 G6 和 Gr6 EC2 執行個體支援。如需詳細資訊，請參閱[建議的 GPU 執行個體](gpu.md)。

#### 發行日期：2024-03-29
<a name="2024-03-29-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱**
+ Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240326
+ Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240326

##### Updated
<a name="w2aac25c13b5b5c41b5"></a>
+ 在私有和 OSS Nvidia 驅動程式 DLAMIs 中，將 Nvidia 驅動程式從 535.161.08 更新535.104.12為 。
+ 已從私有 Nvidia 驅動程式 DLAMI 移除 G4dn、G5 EC2 執行個體支援。
+ 每個 DLAMI 支援的新執行個體如下所示：
  + Deep Learning with Proprietary Nvidia Driver 支援 G3 （不支援 G3.16x)、P3、P3dn
  + 使用 OSS Nvidia Driver 的深度學習支援 G4dn、G5、P4d、P4de、P5。

#### 發行日期：2024-03-20
<a name="2024-03-20-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱**
+ Deep Learning Base OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240318
+ Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240318

##### 已新增
<a name="w2aac25c13b5b5c43b5"></a>
+ 在 /usr/local/bin/aws2 的 AMI `awscliv2`中新增，並在私有和 OSS Nvidia 驅動程式 AMI 上`awscliv1`新增為 /usr/bin/aws 

#### 發行日期：2024-03-14
<a name="2024-03-14-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：**深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240314

##### Updated
<a name="w2aac25c13b5b5c45b5"></a>
+ 根據目前的支援，以 G4dn 和 G5 支援更新 OSS Nvidia 驅動程式 DLAMI，如下所示：
  + Deep Learning Base Proprietary Nvidia Driver AMI (Ubuntu 20.04) 支援 P3、P3dn、G3、G5、G4dn。
  + Deep Learning Base OSS Nvidia Driver AMI (Ubuntu 20.04) 支援 G5、G4dn、P4、P5。
+ OSS Nvidia DLAMIs 建議用於 G5、G4dn、P4、P5。

#### 發行日期：2024-02-12
<a name="2024-02-12-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱**
+ 深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240208
+ Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240208

##### Updated
<a name="w2aac25c13b5b5c47b5"></a>
+ AWS OFI NCCL 外掛程式已從 1.7.3 更新至 1.7.4

#### 發行日期：2024-02-01
<a name="2024-02-01-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱**
+ 深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240201
+ Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240201

##### 安全
<a name="w2aac25c13b5b5c49b5"></a>
+ 更新 runc 套件版本以使用 [CVE-2024-21626](https://nvd.nist.gov/vuln/detail/CVE-2024-21626) 的修補程式。

#### 發行日期：2023-12-04
<a name="2023-12-04-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱**
+ 深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20231204
+ Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20231204

##### 已新增
<a name="w2aac25c13b5b5c51b5"></a>
+ AWS 深度學習 AMI (DLAMI) 分為兩個不同的群組：
  + 使用 Nvidia 專屬驅動程式的 DLAMI （支援 P3、P3dn、G3、G5、G4dn)。
  + 使用 Nvidia OSS 驅動程式啟用 EFA （以支援 P4、P5) 的 DLAMI。
+ 如需 [DLAMI 分割的詳細資訊，請參閱 DLAMI 的重要變更](important-changes.md)。
+ AWS CLI 上述查詢位於 **AWSCLI 的查詢 AMI-ID 項目符號下 （區域範例為 us-east-1)**

##### Updated
<a name="w2aac25c13b5b5c51b7"></a>
+ EFA 從 1.26.1 更新至 1.29.0
+ GDRCopy 從 2.3 更新至 2.4

#### 發行日期：2023-10-18
<a name="2023-10-18-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：**深度學習基礎 GPU AMI (Ubuntu 20.04) 20231018

##### Updated
<a name="w2aac25c13b5b5c53b5"></a>
+ AWS OFI NCCL 外掛程式已從 1.7.2 版更新至 1.7.3 版
+ 使用 NCCL 2.18.5 版更新 CUDA 12.0-12.1 目錄，以符合 CUDA 12.2
+ CUDA12.1 已更新為預設 CUDA 版本
  + 已更新 LD\_LIBRARY\_PATH 為 /usr/local/cuda-12.1/targets/x86\_64-linux/lib/：/usr/local/cuda-12.1/lib：/usr/local/cuda-12.1/lib64：/usr/local/cuda-12.1 和 PATH 為 /usr/local/cuda-12.1/bin/
  + 對於想要變更為任何不同 CUDA 版本的客戶，請相應地定義 LD\_LIBRARY\_PATH 和 PATH 變數。

#### 發行日期：2023-10-02
<a name="2023-10-02-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：**深度學習基礎 GPU AMI (Ubuntu 20.04) 20231002

##### Updated
<a name="w2aac25c13b5b5c55b5"></a>
+ NVIDIA 驅動程式從 535.54.03 更新為 535.104.12
  + 此最新驅動程式修正了驅動程式版本 535.54.03 中找到的 NVML ABI 中斷變更，以及版本 535.86.10 中找到的驅動程式迴歸，這些驅動程式迴歸會影響 P5 執行個體上的 CUDA 工具組。如需修正的詳細資訊，請參閱下列 NVIDIA 版本備註：
  + 如需修正的詳細資訊，請參閱下列 NVIDIA 版本備註：
    + [4235941](https://docs.nvidia.com/datacenter/tesla/tesla-release-notes-535-104-05/index.html) - NVML ABI 中斷變更修正
    + [4228552](https://docs.nvidia.com/datacenter/tesla/tesla-release-notes-535-104-12/index.html) - CUDA Toolkit 錯誤修正
+ 使用 NCCL 2.18.5 更新 CUDA 12.2 目錄
+ EFA 從 1.24.1 版更新至最新的 1.26.1 版

##### 已新增
<a name="w2aac25c13b5b5c55b7"></a>
+ 在 /usr/local/cuda-12.2 新增 CUDA12.2usr/local/cuda-12

##### 已移除
<a name="w2aac25c13b5b5c55b9"></a>
+ 已移除對 CUDA 11.5 和 CUDA 11.6 的支援

#### 發行日期：2023-09-26
<a name="2023-09-26-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：**深度學習基礎 GPU AMI (Ubuntu 20.04) 20230926

##### 已新增
<a name="w2aac25c13b5b5c57b5"></a>
+ 新增 net.naming-scheme 變更，以修正 P5 上所見無法預測的網路界面命名問題 ([連結](https://bugs.launchpad.net/ubuntu/+source/systemd/+bug/1945225))。此變更是透過在 檔案 /etc/default/grub 的 linux 開機引數中設定 net.naming-scheme=v247 來進行

#### 發行日期：2023-08-30
<a name="2023-08-30-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：**深度學習基礎 GPU AMI (Ubuntu 20.04) 20230830

##### Updated
<a name="w2aac25c13b5b5c59b5"></a>
+ 將`aws-ofi-nccl`外掛程式從 v1.7.1 更新至 v1.7.2

#### 發行日期：2023-08-11
<a name="2023-08-11-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：**深度學習基礎 GPU AMI (Ubuntu 20.04) 20230811

##### 已新增
<a name="w2aac25c13b5b5c61b5"></a>
+ 此 AMI 現在支援 P5 和所有先前支援的 EC2 執行個體上的多節點訓練功能。
+ 對於 P5 EC2 執行個體，建議使用 NCCL 2.18，並已新增至 CUDA12.0 和 CUDA12.1。

##### 已移除
<a name="w2aac25c13b5b5c61b7"></a>
+ 已移除對 CUDA11.3 和 CUDA11.4 的支援。

#### 發行日期：2023-08-04
<a name="2023-08-04-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：**深度學習基礎 GPU AMI (Ubuntu 20.04) 20230804

##### Updated
<a name="w2aac25c13b5b5c63b5"></a>
+ 已將 AWS OFI NCCL 外掛程式更新至 v1.7.1
+ 將 CUDA11.8 預設設為 PyTorch 2.0 支援 11.8，對於 P5 EC2 執行個體，建議使用 >=CUDA11.8
  + 已更新 LD\_LIBRARY\_PATH 為 /usr/local/cuda-11.8/targets/x86\_64-linux/lib/：/usr/local/cuda-11.8/lib：/usr/local/cuda-11.8/lib64：/usr/local/cuda-11.8 和 PATH 為 /usr/local/cuda-11.8/bin/
  + 對於任何不同的 cuda 版本，請相應地定義 LD\_LIBRARY\_PATH。
+ 使用 NCCL 2.18.3 更新 CUDA 12.0、12.1 目錄

##### Fixed
<a name="w2aac25c13b5b5c63b7"></a>
+ 修正舊版 中提到的 Nvidia Fabric Manager (FM) 套件載入問題** **2023-07-19。

#### 發行日期：2023-07-19
<a name="2023-07-19-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：**深度學習基礎 GPU AMI (Ubuntu 20.04) 20230719

##### Updated
<a name="w2aac25c13b5b5c65b5"></a>
+ EFA 從 1.22.1 更新至 1.24.1
+ Nvidia 驅動程式從 525.85.12 更新為 535.54.03

##### 已新增
<a name="w2aac25c13b5b5c65b7"></a>
+ 新增 c-state 變更，透過將最大 c-state 設定為 C1 來停用處理器的閒置狀態。此變更是透過在檔案 /etc/default/grub 的 linux 開機引數中設定 `intel\_idle.max\_cstate=1 processor.max\_cstate=1` 來進行
+ AWS EC2 P5 執行個體支援：
  + 新增對使用單一節點/執行個體之工作流程的 P5 EC2 執行個體支援。使用 EFA (Elastic Fabric Adapter) 和 AWS OFI NCCL 外掛程式的多節點支援 （例如，用於多節點訓練） 將新增至即將推出的版本。
  + 請使用 CUDA>=11.8 以獲得最佳效能。
  + 已知問題：Nvidia Fabric Manager (FM) 套件需要時間載入 P5，客戶需要等待 2-3 分鐘，直到啟動 P5 執行個體後 FM 載入為止。若要檢查 FM 是否已啟動，請執行命令 sudo systemctl is-active nvidia-fabricmanager ，它應該在開始任何工作流程之前傳回作用中。這將在即將推出的版本中改善。

#### 發行日期：2023-05-19
<a name="2023-05-19-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：**深度學習基礎 GPU AMI (Ubuntu 20.04) 20230519

##### Updated
<a name="w2aac25c13b5b5c67b5"></a>
+ EFA 已更新至最新的 1.22.1
+ CUDA 12.1 的 NCCL 版本已更新為 2.17.1

##### 已新增
<a name="w2aac25c13b5b5c67b7"></a>
+ 在 /usr/local/cuda-12.1 新增 CUDA12.1usr/local/cuda-12
+ 新增透過 datacenter-gpu-manager 套件支援 [NVIDIA 資料中心 GPU Monitor (DCGM)](https://developer.nvidia.com/dcgm) 
  + 您可以透過下列查詢檢查此服務的狀態：sudo systemctl status nvidia-dcgm
+ 暫時性 NVMe 執行個體存放區現在會自動掛載到支援的 EC2 執行個體，並且可以在資料夾 /opt/dlami/nvme/ 中存取儲存體。您可以透過下列方式檢查或修改此服務：
  + 檢查 NVMe 服務的狀態：sudo systemctl status dlami-nvme
  + 若要存取或修改服務： `/opt/aws/dlami/bin/nvme_ephemeral_drives.sh`
+ NVMe 磁碟區為需要 IOPS 效能的高輸送量工作流程提供最快且最有效率的儲存解決方案。暫時性 NVMe 執行個體存放區包含在執行個體的成本中，因此此服務不會產生額外費用。
+ NVMe 執行個體存放區只會掛載在支援它們的 EC2 執行個體上。如需使用 NVMe 支援的執行個體存放區之 EC2 執行個體的資訊，請參閱[可用的執行個體存放區磁碟區](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/instance-store-volumes.html#available-instance-store-volumes)，並驗證是否支援 NVMe。
+ 若要改善磁碟效能並減少第一次寫入懲罰，您可以初始化執行個體存放區 （請注意，此程序可能需要數小時，視 EC2 執行個體類型而定） - 在 [ EC2 執行個體上初始化執行個體存放區磁碟區](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/disk-performance.html)
+ **注意**：NVMe 執行個體存放區掛載在執行個體上，不會像 EBS 一樣連接到網路。重新啟動或停止執行個體時，這些 NVMe 磁碟區上的資料可能會遺失。

#### 版本日期：2023-04-17
<a name="2023-04-17-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：**深度學習基礎 GPU AMI (Ubuntu 20.04) 20230414

##### Updated
<a name="w2aac25c13b5b5c69b5"></a>
+ 將 DLAMI 名稱從 AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) ${YYYY-MM-DD} 更新為 Deep Learning Base GPU AMI (Ubuntu 20.04) ${YYYY-MM-DD}
  + 請注意，我們將從此版本開始支援使用舊 AMI 名稱的最新 DLAMI，為期一個月，以提供所需的任何支援。客戶可以更新其作業系統套件 apt-get 更新 && apt-get 升級，以使用安全修補程式。
+ 將 AWS OFI NCCL 外掛程式路徑從 更新`/usr/local/cuda-xx.x/efa/`為 `/opt/aws-ofi-nccl/`
+ 將 NCCL 更新為 v2.16.2 的[自訂 GIT 分支](https://github.com/NVIDIA/nccl/tree/inc_nsteps)，由 AWS 和 NCCL 團隊共同撰寫，適用於所有 CUDA 版本。它在 AWS 基礎設施上表現更好。

##### 已新增
<a name="w2aac25c13b5b5c69b7"></a>
+ 在 /usr/local/cuda-12.0 新增 CUDA12.0usr/local/cuda-12
+ 已新增 [AWS FSx](https://aws.amazon.com/fsx/)
+ 新增對 /usr/bin/python3.9 中 Python 3.9 版的支援
  + 請注意，此變更不會取代預設系統 Python，python3 仍會指向系統 Python3.8。
  + 您可以使用下列命令存取 Python3.9：

    ```
    /usr/bin/python3.9
    python3.9
    ```

##### 已移除
<a name="w2aac25c13b5b5c69b9"></a>
+ 從 /usr/local/cuda-11.x/ 移除 CUDA11.0-11.1，因為根據架構[支援政策](support-policy.md)，任何支援的架構版本都不會使用 CUDA11.0-11.1。usr/local/cuda-11

#### 發行日期：2022-05-25
<a name="2022-05-25-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：** AWS 深度學習基礎 AMI GPU CUDA 11 (Ubuntu 20.04) 20220523

##### Updated
<a name="w2aac25c13b5b5c71b5"></a>
+ 此版本新增對新 EC2 執行個體 p4de.24xlarge 的支援。
  + 更新`aws-efa-installer`至 1.15.2 版
  + 更新`aws-ofi-nccl`至`1.3.0-aws`包含 p4de.24xlarge 拓撲的版本。

#### 發行日期：2022-03-25
<a name="2022-03-25-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：** AWS 深度學習基礎 AMI GPU CUDA 11 (Ubuntu 20.04) 20220325

##### Updated
<a name="w2aac25c13b5b5c73b5"></a>
+ 將 EFA 版本從 1.15.0 更新至 1.15.1

#### 發行日期：2022-03-17
<a name="2022-03-17-base-gpu-ami-ubuntu-20.04"></a>

**AMI 名稱：** AWS 深度學習基礎 AMI GPU CUDA 11 (Ubuntu 20.04) 20220323

##### 已新增
<a name="w2aac25c13b5b5c75b5"></a>
+ 第一版