本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Deep Learning Base GPU AMI (Ubuntu 20.04)
不支援通知
Ubuntu Linux 20.04 LTS 將於 2025 年 5 月 31 日結束其五年 LTS 時段,其廠商將不再支援此時段。 因此, AWS 深度學習基礎 GPU AMI (Ubuntu 20.04) 在 2025 年 5 月 31 日之後不會有任何更新。先前的版本將繼續可用。請注意,任何公開發行的 AMI 都會在建立日期的 2 年後被 EC2 取代。如需詳細資訊,請參閱棄用 Amazon EC2 AMI。
在 3 個月內,直到 2025 年 8 月 31 日為止,將僅針對功能問題 (而非安全性修補程式) 提供支援。
Ubuntu 20.04 DLAMI 的使用者應移至 AWS Deep Learning Base GPU AMI (Ubuntu 22.04)
或 AWS Deep Learning Base GPU AMI (Ubuntu 24.04)。 或者,也可以使用AWS 深度學習基礎 AMI (Amazon Linux 2023) 。
如需入門的協助,請參閱 DLAMI 入門。
AMI 名稱格式
深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) ${YYYY-MM-DD}
Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) ${YYYY-MM-DD}
支援的 EC2 執行個體
請參閱 DLAMI 的重要變更。
深度學習搭配 OSS Nvidia 驅動程式支援 G4dn, G5, G6, Gr6, G6e, P4d, P4de, P5, P5e, P5en
Deep Learning with Proprietary Nvidia Driver 支援 G3 (不支援 G3.16x)、P3, P3dn
AMI 包含下列項目:
支援服務 AWS :Amazon EC2
作業系統:Ubuntu 20.04
運算架構:x86
下列套件已安裝最新的可用版本:
Linux 核心 5.15
FSx Lustre
Docker
AWS CLI v2 位於 /usr/local/bin/aws2,AWS CLI v1 位於 /usr/bin/aws
NVIDIA DCGM
Nvidia 容器工具組:
版本命令:nvidia-container-cli -V
Nvidia-docker2:
版本命令:nvidia-docker 版本
NVIDIA 驅動程式:
OSS Nvidia 驅動程式:550.163.01
專屬 Nvidia 驅動程式:550.163.01
NVIDIA CUDA 11.7、12.1-12.4 堆疊:
CUDA、NCCL 和 cuDDN 安裝目錄:/usr/local/cuda-xx.x/
範例:/usr/local/cuda-12.1/
編譯的 NCCL 版本:2.22.3+CUDA12.4
預設 CUDA:12.1
PATH /usr/local/cuda 指向 CUDA 12.1
已更新下列 env vars:
LD_LIBRARY_PATH 具有 /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
要具有 /usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/ 的 PATH
對於任何不同的 CUDA 版本,請相應地更新 LD_LIBRARY_PATH。
NCCL 測試位置:
all_reduce、all_gather 和 reduce_scatter:/usr/local/cuda-xx.x/efa/test-cuda-xx.x/
若要執行 NCCL 測試,LD_LIBRARY_PATH 需要通過以下更新。
常見 PATHs已新增至 LD_LIBRARY_PATH:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
對於任何不同的 CUDA 版本,請相應地更新 LD_LIBRARY_PATH。
EFA 安裝程式:1.39.0
Nvidia GDRCopy:2.4
AWS OFI NCCL 外掛程式: 已安裝為 EFA Installer-aws 的一部分
AWS OFI NCCL 現在支援使用單一建置的多個 NCCL 版本
安裝路徑:/opt/aws-ofi-nccl/ 。路徑 /opt/aws-ofi-nccl/lib 已新增至 LD_LIBRARY_PATH。
測試 ring, message_transfer 的路徑:/opt/aws-ofi-nccl/tests
EBS 磁碟區類型:gp3
Python:/usr/bin/python3.9
NVMe 執行個體存放區位置 (在支援的 EC2 執行個體上):/opt/dlami/nvme
使用 SSM 參數查詢 AMI-ID (範例區域為 us-east-1):
OSS Nvidia 驅動程式:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text專屬 Nvidia 驅動程式:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
使用 AWSCLI 查詢 AMI-ID (範例區域為 us-east-1):
OSS Nvidia 驅動程式:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text專屬 Nvidia 驅動程式:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
注意
NVIDIA Container Toolkit 1.17.4
在 Container Toolkit 1.17.4 版中,CUDA Compat 程式庫的掛載現已停用。為了確保與容器工作流程上的多個 CUDA 版本相容,請確保您更新 LD_LIBRARY_PATH 以包含 CUDA 相容性程式庫,如如果您使用 CUDA 相容性層教學中所示。
從 1.37 到 1.38 的 EFA 更新 ( 發行2025-02-04)
EFA 現在綁定 AWS OFI NCCL 外掛程式,現在可在 /opt/amazon/ofi-nccl 中找到,而不是原始 /opt/aws-ofi-nccl/。如果更新您的 LD_LIBRARY_PATH 變數,請確保您正確修改 OFI NCCL 位置。
支援政策
此 AMI 如 CUDA 版本的元件可能會根據架構支援政策,或最佳化深度學習容器
具有多個網路卡的 EC2 執行個體
許多支援 EFA 的執行個體類型也具有多個網路卡。
DeviceIndex 對每個網路卡都是唯一的,且必須是小於每個 NetworkCard ENIs 限制的非負整數。在 P5 上,每個 NetworkCard ENIs 數目為 2,這表示 DeviceIndex 的唯一有效值為 0 或 1。
針對主要網路介面 (網路卡索引 0、裝置索引 0),建立 EFA (EFA 搭配 ENA) 介面。您不能使用僅限 EFA 的網路介面做為主要網路介面。
對於每個額外的網路界面,請使用下一個未使用的網路卡索引、裝置索引 1,以及 EFA (EFA 搭配 ENA) 或僅限 EFA 網路界面,視您的使用案例而定,例如 ENA 頻寬需求或 IP 地址空間。如需範例使用案例,請參閱 P5 執行個體的 EFA 組態。
如需詳細資訊,請參閱此處的 EFA 指南。
P5/P5e 執行個體
P5 和 P5e 執行個體包含 32 張網路介面卡,可以使用下列 AWS CLI 命令啟動:
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en 執行個體
P5en 包含 16 張網路介面卡,可以使用下列 AWS CLI 命令啟動:
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
核心
核心版本使用 命令鎖定:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections我們建議使用者避免更新其核心版本 (除非因為安全性修補程式),以確保與已安裝的驅動程式和套件版本相容。如果使用者仍想要更新,可以執行下列命令來取消鎖定其核心版本:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections對於每個新版本的 DLAMI,會使用最新的可用相容核心。
發行日期:2025-04-24
AMI 名稱
深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20250424
Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20250424
Updated
已將 Nvidia 驅動程式從 550.144.03 版升級至 550.163.01,以解決 2025 年 4 月 NVIDIA GPU 顯示驅動程式安全公告
中存在的 CVEs
發行日期:2025-02-17
AMI 名稱
深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20250214
Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20250214
Updated
將 NVIDIA Container Toolkit 從 1.17.3 版更新至 1.17.4 版
如需詳細資訊,請參閱此處的版本備註頁面:https://https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
在 Container Toolkit 1.17.4 版中,CUDA Compat 程式庫的掛載現已停用。為了確保與容器工作流程上的多個 CUDA 版本相容,請確保您更新 LD_LIBRARY_PATH 以包含 CUDA 相容性程式庫,如如果您使用 CUDA 相容性層教學中所示。
已移除
已移除 NVIDIA CUDA 工具組
提供的使用者空間程式庫 cuobj 和 nvdisasm,以解決 2025 年 2 月 18 日 NVIDIA CUDA Toolkit 安全公告 中存在的 CVEs
發行日期:2025-02-04
AMI 名稱
深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20250204
Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20250204
Updated
已將 EFA 版本從 1.37.0 升級至 1.38.0
EFA 現在綁定 AWS OFI NCCL 外掛程式,現在可在 /opt/amazon/ofi-nccl 中找到,而不是原始 /opt/aws-ofi-nccl/。如果更新您的 LD_LIBRARY_PATH 變數,請確保您正確修改 OFI NCCL 位置。
已移除
emacs 套件已從這些 DLAMIs中移除。客戶可以從 GNU emacs https://https://www.gnu.org/software/emacs/download.html
安裝 emacs。
發行日期:2025-01-17
AMI 名稱
深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20250117
Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20250117
Updated
已將 Nvidia 驅動程式從 550.127.05 版升級至 550.144.03,以解決 2025 年 1 月 NVIDIA GPU 顯示驅動程式安全公告
中存在的 CVEs
發行日期:2024-12-09
AMI 名稱
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20241206
Deep Learning Base 專屬 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20241206
Updated
已將 Nvidia Container Toolkit 從 1.17.0 版升級至 1.17.3 版
版本日期:2024-11-22
AMI 名稱:深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20241122
已新增
新增對 P5en EC2 執行個體的支援。
Updated
已將 EFA 安裝程式從 1.35.0 版升級至 1.37.0 版
將 AWS OFI NCCL 外掛程式從 1.12.1-aws 版升級至 1.13.0-aws
發行日期:2024-10-26
AMI 名稱
深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20241025
Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20241025
Updated
已將 Nvidia 驅動程式從 550.90.07 版升級至 550.127.05,以解決 2024 年 10 月 NVIDIA GPU 顯示安全公告
中存在的 CVEs
發行日期:2024-10-03
AMI 名稱:深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240927
Updated
已將 Nvidia Container Toolkit 從 1.16.1 版升級至 1.16.2 版
版本日期:2024-08-27
AMI 名稱:深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240827
Updated
將 Nvidia 驅動程式和 Fabric Manager 從 535.183.01 版升級至 550.90.07
已將 EFA 版本從 1.32.0 升級至 1.34.0
已將 NCCL 升級至所有 CUDA 版本的最新版本 2.22.3
CUDA 11.7 從 2.16.2+CUDA11.7 版升級
CUDA 12.1、12.2 從 2.18.5+CUDA12.2 升級
CUDA 12.3 從 2.21.5+CUDA12.4 版升級
已新增
在目錄 /usr/local/cuda-12.4 中新增 CUDA 工具組 12.4 版
新增對 P5e EC2 執行個體的支援。
已移除
已移除目錄 /usr/local/cuda-11.8 中存在的 CUDA Toolkit 11.8 版堆疊
發行日期:2024-08-19
AMI 名稱:深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240816
已新增
新增對 G6e EC2 執行個體
的支援。
發行日期:2024-06-06
AMI 名稱
深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240606
Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240606
Updated
將 Nvidia 驅動程式版本從 535.183.01 更新至 535.161.08
發行日期:2024-05-15
AMI 名稱
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240515
Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240515
已新增
在目錄 /usr/local/cuda-11.7 新增了 CUDA11.7 堆疊,並使用 CUDA11.7、NCCL 2.16.2、CuDNN 8.7.0,因為 PyTorch 1.13 支援 CUDA11.7
版本日期:2024-05-02
AMI 名稱
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240502
Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240502
Updated
將 EFA 版本從 1.30 版更新至 1.32 版
將 AWS OFI NCCL 外掛程式從 1.7.4 版更新至 1.9.1 版
將 Nvidia 容器工具組從 1.13.5 版更新至 1.15.0
版 1.15.0 版不包含 nvidia-container-runtime 和 nvidia-docker2 套件。建議遵循 Nvidia 容器工具組文件,直接使用 nvidia-container-toolkit 套件。 https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/sample-workload.html
已新增
新增 CUDA12.3 堆疊與 CUDA12.3、NCCL 2.21.5、CuDNN 8.9.7
已移除
已移除 CUDA11.7、存在於 /usr/local/cuda-11.7 和 /usr/local/cuda-12.0 目錄中的 CUDA12.0 堆疊usr/local/cuda-12
移除了 nvidia-docker2 套件及其命令 nvidia-docker,作為 Nvidia 容器工具組從 1.13.5 更新至 1.15.0
的一部分,其中不包含 nvidia-container-runtime 和 nvidia-docker2 套件。
發行日期:2024-04-04
AMI 名稱:深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240404
已新增
對於 OSS Nvidia 驅動程式 DLAMIs,新增了 G6 和 Gr6 EC2 執行個體支援。如需詳細資訊,請參閱建議的 GPU 執行個體。
版本日期:2024-03-29
AMI 名稱
深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240326
Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240326
Updated
在私有和 OSS Nvidia 驅動程式 DLAMIs 中,將 Nvidia 驅動程式從 535.161.08 更新535.104.12為 。
已從私有 Nvidia 驅動程式 DLAMI 移除 G4dn, G5 EC2 執行個體支援。
每個 DLAMI 支援的新執行個體如下所示:
Deep Learning with Proprietary Nvidia Driver 支援 G3 (不支援 G3.16x)、P3, P3dn
搭配 OSS Nvidia Driver 的深度學習支援 G4dn, G5, P4d, P4de, P5。
發行日期:2024-03-20
AMI 名稱
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240318
Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240318
已新增
在 /usr/local/bin/aws2 的 AMI
awscliv2中新增,並在私有和 OSS Nvidia 驅動程式 AMI 上awscliv1新增為 /usr/bin/aws
發行日期:2024-03-14
AMI 名稱:深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240314
Updated
根據目前的支援,以 G4dn 和 G5 支援更新 OSS Nvidia 驅動程式 DLAMI,如下所示:
Deep Learning Base Proprietary Nvidia Driver AMI (Ubuntu 20.04) 支援 P3, P3dn, G3, G5, G4dn。
Deep Learning Base OSS Nvidia Driver AMI (Ubuntu 20.04) 支援 G5, G4dn, P4, P5。
OSS Nvidia DLAMIs 建議用於 G5, G4dn, P4, P5。
發行日期:2024-02-12
AMI 名稱
深度學習基礎 OSS Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240208
Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240208
Updated
AWS OFI NCCL 外掛程式已從 1.7.3 更新至 1.7.4
發行日期:2024-02-01
AMI 名稱
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20240201
Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20240201
安全性
更新 runc 套件版本,以使用 CVE-2024-21626
的修補程式。
發行日期:2023-12-04
AMI 名稱
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) 20231204
Deep Learning Base 私有 Nvidia 驅動程式 GPU AMI (Ubuntu 20.04) 20231204
已新增
AWS 深度學習 AMI (DLAMI) 分為兩個不同的群組:
使用 Nvidia 專屬驅動程式的 DLAMI (支援 P3, P3dn, G3, G5, G4dn)。
使用 Nvidia OSS 驅動程式啟用 EFA (以支援 P4, P5) 的 DLAMI。
AWS CLI 上述 的查詢位於 AWSCLI 的 查詢 AMI-ID 下 (區域範例為 us-east-1)
Updated
EFA 從 1.26.1 更新至 1.29.0
GDRCopy 從 2.3 更新至 2.4
發行日期:2023-10-18
AMI 名稱:深度學習基礎 GPU AMI (Ubuntu 20.04) 20231018
Updated
AWS OFI NCCL 外掛程式已從 1.7.2 版更新至 1.7.3 版
使用 NCCL 2.18.5 版更新 CUDA 12.0-12.1 目錄,以符合 CUDA 12.2
CUDA12.1 已更新為預設 CUDA 版本
已更新 LD_LIBRARY_PATH 為 /usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 和 PATH 為 /usr/local/cuda-12.1/bin/
對於想要變更為任何不同 CUDA 版本的客戶,請相應地定義 LD_LIBRARY_PATH 和 PATH 變數。
發行日期:2023-10-02
AMI 名稱:深度學習基礎 GPU AMI (Ubuntu 20.04) 20231002
Updated
NVIDIA 驅動程式從 535.54.03 更新為 535.104.12
使用 NCCL 2.18.5 更新 CUDA 12.2 目錄
EFA 從 1.24.1 版更新至最新的 1.26.1 版
已新增
在 /usr/local/cuda-12.2 新增 CUDA12.2usr/local/cuda-12
已移除
已移除對 CUDA 11.5 和 CUDA 11.6 的支援
發行日期:2023-09-26
AMI 名稱:深度學習基礎 GPU AMI (Ubuntu 20.04) 20230926
已新增
新增 net.naming-scheme 變更,以修正 P5 上所見無法預測的網路界面命名問題 (連結
)。此變更是透過在 檔案 /etc/default/grub 的 linux 開機引數中設定 net.naming-scheme=v247 來進行
發行日期:2023-08-30
AMI 名稱:深度學習基礎 GPU AMI (Ubuntu 20.04) 20230830
Updated
將 aws-ofi-nccl 外掛程式從 v1.7.1 更新為 v1.7.2
發行日期:2023-08-11
AMI 名稱:深度學習基礎 GPU AMI (Ubuntu 20.04) 20230811
已新增
此 AMI 現在支援 P5 和所有先前支援的 EC2 執行個體上的多節點訓練功能。
對於 P5 EC2 執行個體,建議使用 NCCL 2.18,並已新增至 CUDA12.0 和 CUDA12.1。
已移除
已移除對 CUDA11.3 和 CUDA11.4 的支援。
發行日期:2023-08-04
AMI 名稱:深度學習基礎 GPU AMI (Ubuntu 20.04) 20230804
Updated
已將 AWS OFI NCCL 外掛程式更新至 v1.7.1
將 CUDA11.8 預設設為 PyTorch 2.0 支援 11.8,對於 P5 EC2 執行個體,建議使用 >=CUDA11.8
已更新 LD_LIBRARY_PATH 為 /usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 和 PATH 為 /usr/local/cuda-11.8/bin/
對於任何不同的 cuda 版本,請相應地定義 LD_LIBRARY_PATH。
使用 NCCL 2.18.3 更新 CUDA 12.0、12.1 目錄
Fixed
修正舊版 中提到的 Nvidia Fabric Manager (FM) 套件載入問題 2023-07-19。
發行日期:2023-07-19
AMI 名稱:深度學習基礎 GPU AMI (Ubuntu 20.04) 20230719
Updated
EFA 從 1.22.1 更新至 1.24.1
Nvidia 驅動程式從 525.85.12 更新為 535.54.03
已新增
新增 c-state 變更,透過將最大 c-state 設定為 C1 來停用處理器的閒置狀態。此變更是透過在檔案 /etc/default/grub 的 linux 開機引數中設定 `intel_idle.max_cstate=1 processor.max_cstate=1` 來進行
AWS EC2 P5 執行個體支援:
新增對使用單一節點/執行個體之工作流程的 P5 EC2 執行個體支援。使用 EFA (Elastic Fabric Adapter) 和 AWS OFI NCCL 外掛程式的多節點支援 (例如,用於多節點訓練) 將新增至即將推出的版本。
請使用 CUDA>=11.8 以獲得最佳效能。
已知問題:Nvidia Fabric Manager (FM) 套件需要時間載入 P5,客戶需要等待 2-3 分鐘,直到啟動 P5 執行個體後 FM 載入為止。若要檢查 FM 是否已啟動,請執行命令 sudo systemctl is-active nvidia-fabricmanager ,它應該在開始任何工作流程之前傳回作用中。這將在即將推出的版本中改善。
發行日期:2023-05-19
AMI 名稱:深度學習基礎 GPU AMI (Ubuntu 20.04) 20230519
Updated
EFA 已更新至最新的 1.22.1
將 CUDA 12.1 的 NCCL 版本更新為 2.17.1
已新增
在 /usr/local/cuda-12.1 新增 CUDA12.1usr/local/cuda-12
透過 datacenter-gpu-manager 套件新增對 NVIDIA 資料中心 GPU Monitor (DCGM)
的支援 您可以透過下列查詢檢查此服務的狀態:sudo systemctl status nvidia-dcgm
暫時性 NVMe 執行個體存放區現在會自動掛載到支援的 EC2 執行個體,並且可以在資料夾 /opt/dlami/nvme/ 中存取儲存體。您可以透過下列方式檢查或修改此服務:
檢查 NVMe 服務的狀態:sudo systemctl status dlami-nvme
若要存取或修改服務:/opt/aws/dlami/bin/nvme_ephemeral_drives.sh
NVMe 磁碟區為需要 IOPS 效能的高輸送量工作流程提供最快且最有效率的儲存解決方案。暫時性 NVMe 執行個體存放區包含在執行個體的成本中,因此此服務不會產生額外費用。
NVMe 執行個體存放區只會掛載在支援它們的 EC2 執行個體上。如需使用 NVMe 支援的執行個體存放區之 EC2 執行個體的資訊,請參閱可用的執行個體存放區磁碟區,並驗證是否支援 NVMe。
若要改善磁碟效能並減少第一次寫入懲罰,您可以初始化執行個體存放區 (請注意,此程序可能需要數小時,視 EC2 執行個體類型而定) - 在 EC2 執行個體上初始化執行個體存放區磁碟區
注意:NVMe 執行個體存放區掛載在執行個體上,不會像 EBS 一樣連接到網路。重新啟動或停止執行個體時,這些 NVMe 磁碟區上的資料可能會遺失。
發行日期:2023-04-17
AMI 名稱:深度學習基礎 GPU AMI (Ubuntu 20.04) 20230414
Updated
將 DLAMI 名稱從 AWS Deep Learning Base AMI GPU CUDA 11 (Ubuntu 20.04) ${YYYY-MM-DD} 更新為 Deep Learning Base GPU AMI (Ubuntu 20.04) ${YYYY-MM-DD}
請注意,從此版本開始,我們將支援具有舊 AMI 名稱的最新 DLAMI,為期一個月,提供任何所需的支援。客戶可以更新其作業系統套件 apt-get 更新 && apt-get 升級,以使用安全修補程式。
將 AWS OFI NCCL 外掛程式路徑從 /usr/local/cuda-xx.x/efa/ 更新為 /opt/aws-ofi-nccl/
將 NCCL 更新為 v2.16.2 的自訂 GIT 分支
,由 AWS 和 NCCL 團隊共同撰寫,適用於所有 CUDA 版本。它在 AWS 基礎設施上表現更好。
已新增
在 /usr/local/cuda-12.0 新增 CUDA12.0usr/local/cuda-12
已新增 AWS FSx
新增支援 /usr/bin/python3.9 中的 Python 3.9 版
請注意,此變更不會取代預設系統 Python,python3 仍會指向系統 Python3.8。
您可以使用下列命令存取 Python3.9:
/usr/bin/python3.9 python3.9
已移除
從 /usr/local/cuda-11.x/ 移除 CUDA11.0-11.1,因為根據架構支援政策,任何支援的架構版本都不會使用 CUDA11.0-11.1。usr/local/cuda-11
發行日期:2022-05-25
AMI 名稱: AWS 深度學習基礎 AMI GPU CUDA 11 (Ubuntu 20.04) 20220523
Updated
此版本新增對新 EC2 執行個體 p4de.24xlarge 的支援。
將 aws-efa-installer 更新至 1.15.2 版
將 aws-ofi-nccl 更新至 1.3.0-aws 版,其中包含 p4de.24xlarge 的拓撲。
發行日期:2022-03-25
AMI 名稱: AWS 深度學習基礎 AMI GPU CUDA 11 (Ubuntu 20.04) 20220325
Updated
將 EFA 版本從 1.15.0 更新至 1.15.1
發行日期:2022-03-17
AMI 名稱: AWS 深度學習基礎 AMI GPU CUDA 11 (Ubuntu 20.04) 20220323
已新增
第一版