AWS 深度学习基础 GPU AMI(Ubuntu 20.04)
终止支持通知
Ubuntu Linux 20.04 LTS 于 2025 年 5 月 31 日到达其五年长期支持(LTS)窗口的终点,此后将不再获得其供应商的支持。因此,AWS 深度学习基础 GPU AMI(Ubuntu 20.04)在 2025 年 5 月 31 日之后将不再有更新。先前的版本将继续可用。请注意,任何公开发布的 AMI 在其创建日期两年后都会被 EC2 弃用。有关更多信息,请参阅弃用 Amazon EC2 AMI。
自该日到 2025 年 8 月 31 日的三个月内,仅针对功能性问题提供支持(不提供安全补丁)。
Ubuntu 20.04 DLAMI 的用户应迁移到 AWS 深度学习基础 GPU AMI(Ubuntu 22.04)
或 AWS 深度学习基础 GPU AMI(Ubuntu 24.04) 。或者,可以使用 AWS 深度学习基础 AMI(Amazon Linux 2023) 。
有关入门帮助,请参阅 DLAMI 入门。
AMI 名称格式
深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)${年-月-日}
深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)${年-月-日}
支持的 EC2 实例
请参阅 DLAMI 的重要更改。
采用 OSS Nvidia 驱动程序的深度学习支持 G4dn、G5、G6、Gr6、G6e、P4d、P4de、P5、P5e、P5en
采用专有 Nvidia 驱动程序的深度学习支持 G3(不支持 G3.16x)、P3、P3dn
该 AMI 包含以下内容:
支持的 AWS 服务:Amazon EC2
操作系统:Ubuntu 20.04
计算架构:x86
已为以下软件包安装了最新的可用版本:
Linux 内核 5.15
FSx Lustre
Docker /
AWS CLI v2(位置 /usr/local/bin/aws2)和 AWS CLI v1(位置 /usr/bin/aws)
NVIDIA DCGM
Nvidia Container Toolkit:
版本命令:nvidia-container-cli -V
Nvidia-docker2:
版本命令:nvidia-docker 版本
NVIDIA 驱动程序:
OSS Nvidia 驱动程序:550.163.01
专有 Nvidia 驱动程序:550.163.01
NVIDIA CUDA 11.7、12.1-12.4 堆栈:
CUDA、NCCL 和 cuDDN 安装目录:/usr/local/cuda-xx.x/
示例:/usr/local/cuda-12.1/
已编译的 NCCL 版本:2.22.3+CUDA12.4
默认 CUDA:12.1
PATH /usr/local/cuda 指向 CUDA 12.1
更新以下环境变量:
LD_LIBRARY_PATH 更新为包含 /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
PATH 更新为包含 /usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/
对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。
NCCL 测试位置:
all_reduce、all_gather 和 reduce_scatter:/usr/local/cuda-xx.x/efa/test-cuda-xx.x/
要运行 NCCL 测试,需要传递包含以下更新的 LD_LIBRARY_PATH。
常用 PATH 已经被添加到 LD_LIBRARY_PATH:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。
EFA 安装程序:1.39.0
Nvidia GDRCopy:2.4
AWS OFI NCCL 插件:作为 EFA Installer-aws 的一部分安装
AWS OFI NCCL 现在通过一次构建支持多个 NCCL 版本
安装路径:/opt/aws-ofi-nccl/。路径 /opt/aws-ofi-nccl/lib 添加到 LD_LIBRARY_PATH。
用于 ring、message_transfer 的测试路径:/opt/aws-ofi-nccl/tests
EBS 卷类型:gp3
Python:/usr/bin/python3.9
NVMe 实例存储位置(在支持的 EC2 实例上):/opt/dlami/nvme
使用 SSM 参数查询 AMI-ID(示例区域为 us-east-1):
OSS Nvidia 驱动程序:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text专有 Nvidia 驱动程序:
aws ssm get-parameter --regionus-east-1\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
使用 AWSCLI 查询 AMI-ID(示例区域为 us-east-1):
OSS Nvidia 驱动程序:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text专有 Nvidia 驱动程序:
aws ec2 describe-images --regionus-east-1\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
声明
NVIDIA Container Toolkit 1.17.4
在 Container Toolkit 版本 1.17.4 中,现在禁用挂载 CUDA 兼容性库。为了确保与容器工作流中的多个 CUDA 版本兼容,请确保更新 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如如果您使用 CUDA 兼容层教程中所示。
EFA 版本从 1.37 更新为 1.38(2025-02-04 发布)
EFA 现在捆绑了 AWS OFI NCCL 插件,现在可以在 /opt/amazon/ofi-nccl 而非原来的 /opt/aws-ofi-nccl/ 中找到该插件。如果更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。
支持策略
此 AMI 的组件(如 CUDA 版本)可能在未来版本中基于框架支持策略或为了优化深度学习容器
使用多个网卡的 EC2 实例
许多支持 EFA 的实例类型也有多个网卡。
DeviceIndex 对于每个网卡都是唯一的,其值必须是一个非负整数,且小于每个网卡支持的 ENI 数量上限。在 P5 上,每个网卡支持 2 个 ENI,这意味着 DeviceIndex 的唯一有效值是 0 或 1。
对于主网络接口(网卡索引 0、设备索引 0),创建一个 EFA(兼具 ENA 功能的 EFA)接口。您不能使用仅限 EFA 的网络接口作为主网络接口。
对于每个附加的网络接口,请使用下一个未使用的网卡索引、设备索引 1 以及 EFA(兼具 ENA 功能的 EFA)或仅 EFA 的网络接口,具体取决于您的使用案例,例如 ENA 带宽要求或 IP 地址空间。有关使用案例示例,请参阅 P5 实例的 EFA 配置。
有关更多信息,请参阅此处的《EFA 指南》。
P5/P5e 实例
P5 和 P5e 实例包含 32 个网络接口卡,可以使用以下 AWS CLI 命令来启动:
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en 实例
P5en 包含 16 个网络接口卡,可以使用以下 AWS CLI 命令来启动:
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
内核
使用以下命令固定内核版本:
echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections我们建议用户避免更新其内核版本(除非为了安全修补原因),以确保与已安装的驱动程序和软件包版本兼容。如果用户仍希望更新,则可以运行以下命令来取消固定内核版本:
echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections对于每个新版本的 DLAMI,使用最新可用的兼容内核。
发布日期:2025-04-24
AMI 名称
深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20250424
深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20250424
更新
Nvidia 驱动程序版本从 550.144.03 升级到 550.163.01,以解决 2025 年 4 月版 NVIDIA GPU 显示器驱动程序安全公告
中披露的 CVE 漏洞
发布日期:2025-02-17
AMI 名称
深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20250214
深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20250214
更新
NVIDIA Container Toolkit 版本从 1.17.3 更新为 1.17.4
有关更多信息,请查看此处的发布说明页面:https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4
在 Container Toolkit 版本 1.17.4 中,现在禁用挂载 CUDA 兼容性库。为了确保与容器工作流中的多个 CUDA 版本兼容,请确保更新 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如如果您使用 CUDA 兼容层教程中所示。
删除
删除了 NVIDIA CUDA Toolkit
提供的用户空间库 cuobj 和 nvdisasm,以解决 2025 年 2 月 18 日版 NVIDIA CUDA Toolkit 安全公告 中披露的 CVE 漏洞
发布日期:2025-02-04
AMI 名称
深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20250204
深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20250204
更新
EFA 版本从 1.37.0 升级到 1.38.0
EFA 现在捆绑了 AWS OFI NCCL 插件,现在可以在 /opt/amazon/ofi-nccl 而非原来的 /opt/aws-ofi-nccl/ 中找到该插件。如果更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。
删除
已从这些 DLAMI 中删除 emacs 软件包。客户可以从 GNU emacs(https://www.gnu.org/software/emacs/download.html
)安装 emacs。
发布日期:2025-01-17
AMI 名称
深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20250117
深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20250117
更新
Nvidia 驱动程序版本从 550.127.05 升级到 550.144.03,以解决 2025 年 1 月版 NVIDIA GPU 显示器驱动程序安全公告
中披露的 CVE 漏洞
发布日期:2024-12-09
AMI 名称
深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20241206
深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20241206
更新
Nvidia Container Toolkit 版本从 1.17.0 升级到 1.17.3
发布日期:2024-11-22
AMI 名称:深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20241122
增加
增加了对 P5en EC2 实例的支持。
更新
EFA 安装程序版本从 1.35.0 升级到 1.37.0
AWS OFI NCCL 插件版本从 1.12.1-aws 升级到 1.13.0-aws
发布日期:2024-10-26
AMI 名称
深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20241025
深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20241025
更新
Nvidia 驱动程序版本从 550.90.07 升级到 550.127.05,以解决 2024 年 10 月版 NVIDIA GPU 显示器安全公告
中披露的 CVE 漏洞
发布日期:2024-10-03
AMI 名称:深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240927
更新
Nvidia Container Toolkit 版本从 1.16.1 升级到 1.16.2
发布日期:2024-08-27
AMI 名称:深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240827
更新
Nvidia 驱动程序和 Fabric Manager 版本从 535.183.01 升级到 550.90.07
EFA 版本从 1.32.0 升级到 1.34.0
针对所有 CUDA 版本将 NCCL 升级到最新版本 2.22.3
CUDA 11.7 从 NCCL 版本 2.16.2(基于 CUDA11.7 构建)升级
CUDA 12.1、12.2 从 NCCL 版本 2.18.5(基于 CUDA12.2 构建)升级
CUDA 12.3 从 NCCL 版本 2.21.5(基于 CUDA12.4 构建)升级
增加
在 /usr/local/cuda-12.4 目录中增加了 CUDA Toolkit 版本 12.4
增加了对 P5e EC2 实例的支持。
删除
移除了 /usr/local/cuda-11.8 目录中存在的 CUDA Toolkit 版本 11.8 堆栈
发布日期:2024-08-19
AMI 名称:深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240816
增加
增加了对 G6e EC2 实例
的支持。
发布日期:2024-06-06
AMI 名称
深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240606
深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240606
更新
Nvidia 驱动程序版本从 535.183.01 更新为 535.161.08
发布日期:2024-05-15
AMI 名称
深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240515
深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240515
增加
在 /usr/local/cuda-11.7 目录下重新增加了 CUDA11.7 堆栈,其中包含 CUDA11.7、NCCL 2.16.2 和 CuDNN 8.7.0,这样做的原因是 PyTorch 1.13 支持 CUDA11.7
发布日期:2024-05-02
AMI 名称
深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240502
深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240502
更新
EFA 版本从 1.30 更新为 1.32
AWS OFI NCCL 插件版本从 1.7.4 更新到 1.9.1
Nvidia Container Toolkit 版本从 1.13.5 更新为 1.15.0
版本 1.15.0 不包括 nvidia-container-runtime 和 nvidia-docker2 软件包。建议按照 Nvidia Container Toolkit 文档
直接使用 nvidia-container-toolkit 软件包。
增加
增加了包含 CUDA12.3、NCCL 2.21.5、CuDNN 8.9.7 的 CUDA12.3 堆栈
删除
移除了存在于 /usr/local/cuda-11.7 目录的 CUDA11.7 堆栈以及存在于 /usr/local/cuda-12.0 目录的 CUDA12.0 堆栈
Nvidia Container Toolkit 版本从 1.13.5 更新为 1.15.0
时,移除了 nvidia-docker2 软件包及其命令 nvidia-docker,因此不再包括 nvidia-container-runtime 和 nvidia-docker2 软件包。
发布日期:2024-04-04
AMI 名称:深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240404
增加
对于 OSS Nvidia 驱动程序 DLAMI,增加了 G6 和 Gr6 EC2 实例支持。有关更多信息,请参阅推荐的 GPU 实例。
发布日期:2024-03-29
AMI 名称
深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240326
深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240326
更新
在专有和 OSS Nvidia 驱动程序 DLAMI 中,Nvidia 驱动程序版本从 535.104.12 更新为 535.161.08。
从专有 Nvidia 驱动程序 DLAMI 中移除了 G4dn、G5 EC2 实例支持。
每个 DLAMI 支持的新实例如下:
采用专有 Nvidia 驱动程序的深度学习支持 G3(不支持 G3.16x)、P3、P3dn
采用 OSS Nvidia 驱动程序的深度学习支持 G4dn、G5、P4d、P4de、P5。
发布日期:2024-03-20
AMI 名称
深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240318
深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240318
增加
在专有和 OSS Nvidia 驱动程序 AMI 上,增加
awscliv2为 /usr/local/bin/aws2,同时增加awscliv1为 /usr/bin/aws
发布日期:2024-03-14
AMI 名称:深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240314
更新
更新了 OSS Nvidia 驱动程序 DLAMI,支持 G4dn 和 G5,更新后的当前支持如下:
深度学习基础专有 Nvidia 驱动程序 AMI(Ubuntu 20.04)支持 P3、P3dn、G3、G5、G4dn。
深度学习基础 OSS Nvidia 驱动程序 AMI(Ubuntu 20.04)支持 G5、G4dn、P4、P5。
对于 G5、G4dn、P4、P5,建议使用 OSS Nvidia 驱动程序 DLAMI。
发布日期:2024-02-12
AMI 名称
深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240208
深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240208
更新
AWS OFI NCCL 插件版本从 1.7.3 更新为 1.7.4
发布日期:2024-02-01
AMI 名称
深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240201
深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240201
安全性
更新了 runc 包版本以使用针对 CVE-2024-21626
的补丁。
发布日期:2023-12-04
AMI 名称
深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20231204
深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20231204
增加
AWS Deep Learning AMI(DLAMI)分为两个独立组:
使用 Nvidia 专有驱动程序的 DLAMI(以支持 P3、P3dn、G3、G5、G4dn)。
使用 Nvidia OSS 驱动程序以启用 EFA 的 DLAMI(以支持 P4、P5)。
有关 DLAMI 拆分的更多信息,请参阅 DLAMI 的重要更改。
用于查询上述 DLAMI 的 AWS CLI 查询包含在要点使用 AWSCLI 查询 AMI-ID(示例区域为 us-east-1)下
更新
EFA 版本从 1.26.1 更新为 1.29.0
GDRCopy 版本从 2.3 更新为 2.4
发布日期:2023-10-18
AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20231018
更新
AWS OFI NCCL 插件版本从 1.7.2 更新为 1.7.3
CUDA 12.0-12.1 目录中的 NCCL 版本更新为 2.18.5 以与 CUDA 12.2 环境保持一致
CUDA12.1 更新为默认 CUDA 版本
LD_LIBRARY_PATH 更新为包含/usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1,PATH 更新为包含 /usr/local/cuda-12.1/bin/
对于想要切换到任何不同 CUDA 版本的客户,请相应地定义 LD_LIBRARY_PATH 和 PATH 变量。
发布日期:2023-10-02
AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20231002
更新
NVIDIA 驱动程序版本从 535.54.03 更新为 535.104.12
将 CUDA 12.2 目录下的 NCCL 版本更新为 2.18.5
EFA 版本从 1.24.1 更新为最新的 1.26.1
增加
在 /usr/local/cuda-12.2 中增加了 CUDA12.2
删除
移除了对 CUDA 11.5 和 CUDA 11.6 的支持
发布日期:2023-09-26
AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20230926
增加
增加了 net.naming-scheme 变更,以修复 P5 上出现的不可预测的网络接口命名问题(链接
)。此变更通过在 /etc/default/grub 文件中的 linux 启动参数里设置 net.naming-scheme=v247 来实现
发布日期:2023-08-30
AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20230830
更新
aws-ofi-nccl 插件版本从 v1.7.1 更新为 v1.7.2
发布日期:2023-08-11
AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20230811
增加
此 AMI 现在支持 P5 和所有以前支持的 EC2 实例上的多节点训练功能。
对于 P5 EC2 实例,建议使用 NCCL 2.18,该版本已添加到 CUDA12.0 和 CUDA12.1 中。
删除
移除了对 CUDA11.3 和 CUDA11.4 的支持。
发布日期:2023-08-04
AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20230804
更新
AWS OFI NCCL 插件版本更新为 v1.7.1
将 CUDA11.8 设为默认值,因为 PyTorch 2.0 支持 11.8,对于 P5 EC2 实例,建议使用 >=CUDA11.8
LD_LIBRARY_PATH 更新为包含 /usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8,PATH 更新为包含 /usr/local/cuda-11.8/bin/
对于任何不同的 cuda 版本,请相应地定义 LD_LIBRARY_PATH。
将 CUDA 12.0、12.1 目录下的 NCCL 版本更新为 2.18.3
修改
修复了之前发布日期 2023-07-19 中提到的 Nvidia Fabric Manager(FM)软件包加载问题。
发布日期:2023-07-19
AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20230719
更新
EFA 版本从 1.22.1 更新为 1.24.1
NVIDIA 驱动程序版本从 525.85.12 更新为 535.54.03
增加
通过将 max c-state 设置为 C1,增加了 c-state 变更以禁用处理器的空闲状态。此变更是通过在 /etc/default/grub 文件中的 linux 启动参数里设置 `intel_idle.max_cstate=1 processor.max_cstate=1` 实现的
AWS EC2 P5 实例支持:
为使用单节点/实例的工作流程增加了 P5 EC2 实例支持。在即将发布的版本中,将增加使用 EFA(Elastic Fabric Adapter)和 AWS OFI NCCL 插件的多节点支持(例如用于多节点训练)。
请使用 CUDA>=11.8 以获得最佳性能。
已知问题:Nvidia Fabric Manager(FM)软件包在 P5 上加载时间较长,客户在启动 P5 实例后需要等待 2-3 分钟才能加载 FM。要检查 FM 是否已启动,请运行命令 sudo systemctl is-active nvidia-fabricmanager,在开始任何工作流之前,该命令应该返回 active 状态。将在未来的版本中修复该问题。
发布日期:2023-05-19
AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20230519
更新
EFA 更新到最新版本 1.22.1
将 CUDA 12.1 环境下的 NCCL 版本更新为 2.17.1
增加
在 /usr/local/cuda-12.1 中增加了 CUDA12.1
通过 datacenter-gpu-manager 包增加了对 NVIDIA Data Center GPU Monitor(DCGM)
的支持 您可以通过以下查询来查看此服务的状态:sudo systemctl status nvidia-dcgm
临时性 NVMe 实例存储现在会自动挂载到支持的 EC2 实例上,可以通过 /opt/dlami/nvme/ 文件夹访问存储。您可以通过下列方式来检查或修改此服务:
检查 NVMe 服务的状态:sudo systemctl status dlami-nvme
访问或修改服务:/opt/aws/dlami/bin/nvme_ephemeral_drives.sh
NVMe 卷为需要 IOPS 性能的高吞吐量工作流程提供了最快、最高效的存储解决方案。临时性 NVMe 实例存储的费用已包含在实例的费用中,因此使用此服务不会产生任何额外成本。
NVMe 实例存储只会被挂载到支持它们的 EC2 实例上。有关哪些 EC2 实例支持 NVMe 实例存储,请参阅可用实例存储卷并验证是否支持 NVMe。
为了提高磁盘性能并减少首次写入的损失,您可以初始化实例存储(注意,此过程可能需要几个小时,具体取决于 EC2 实例类型)- 在 EC2 实例上初始化实例存储卷。
注意:NVMe 实例存储挂载在实例上,不像 EBS 那样连接到网络。在您重启或停止实例时,这些 NVMe 卷上的数据可能会丢失。
发布日期:2023-04-17
AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20230414
更新
DLAMI 名称从“AWS 深度学习基础 AMI GPU CUDA 11(Ubuntu 20.04)${年-月-日}”更新为“深度学习基础 GPU AMI(Ubuntu 20.04)${年-月-日}”
请注意,自本次发布起,我们将在一个月内继续使用旧的 AMI 名称来支持最新的 DLAMI,以应对任何所需的支持。客户可以更新其操作系统包 apt-get update && apt-get upgrade 以使用安全补丁。
AWS OFI NCCL 插件路径从 /usr/local/cuda-xx.x/efa/ 更新为 /opt/aws-ofi-nccl/
对于所有 CUDA 版本,NCCL 更新至一个由 AWS 和 NCCL 团队共同开发的 v2.16.2 的自定义 GIT 分支
。它在 AWS 基础架构上的性能更优。
增加
在 /usr/local/cuda-12.0 中增加了 CUDA12.0
增加了 AWS FSx
在 /usr/bin/python3.9 中增加了对 Python 版本 3.9 的支持
请注意,此更改并不会替换默认的系统 Python,python3 仍然指向系统 Python3.8。
可以使用以下命令访问 Python3.9:
/usr/bin/python3.9 python3.9
删除
从 /usr/local/cuda-11.x/ 中移除了 CUDA11.0-11.1,因为根据框架支持策略,任何受支持的框架版本均未使用它们。
发布日期:2022-05-25
AMI 名称:AWS 深度学习基础 AMI GPU CUDA 11(Ubuntu 20.04)20220523
更新
此版本增加了对新 EC2 实例 p4de.24xlarge 的支持。
aws-efa-installer 版本更新为 1.15.2
aws-ofi-nccl 版本更新为 1.3.0-aws,其中包括 p4de.24xlarge 的拓扑。
发布日期:2022-03-25
AMI 名称:AWS 深度学习基础 AMI GPU CUDA 11(Ubuntu 20.04)20220325
更新
EFA 版本从 1.15.0 更新为 1.15.1
发布日期:2022-03-17
AMI 名称:AWS 深度学习基础 AMI GPU CUDA 11(Ubuntu 20.04)20220323
增加
初始版本