本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS 深度学习基础 AMI(亚马逊 Linux 2)
如需入门帮助,请参阅DLAMI 入门。
AMI 名称格式
深度学习基础 OSS Nvidia Driver AMI(亚马逊 Linux 2)版本 $ {XX.X}
深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 $ {XX.X}
支持的 EC2 实例
请参阅 DLAMI 的重要更改。
使用 OSS 进行深度学习 Nvidia Driver 支持 G4dn、G5、G6、Gr6、G6e、p4d、p4de、P5、p5e、p5e、p5eN
使用专有 Nvidia 驱动程序进行深度学习支持 G3(不支持 G3.16x)、P3、p3dn
AMI 包括以下内容:
支持的 AWS 服务:Amazon EC2
操作系统:亚马逊 Linux 2
计算架构:x86
已为以下软件包安装了最新的可用版本:
Linux 内核:5.10
Docker
AWS CLI v2 位于/usr/local/bin/aws2 和 AWS CLI v1 位于/usr/bin/aws
英伟达容器工具包:
版本命令: nvidia-container-cli-V
nvidia-docker2:
版本命令:nvidia-docker 版本
Python:/usr/bin/python3.7
英伟达驱动程序:
OSS Nvidia 驱动程序:550.163.01
Nvidia 专有驱动程序:550.163.01
NVIDIA CUDA 12.1-12.4 堆栈:
CUDA、NCCL 和 cudDN 安装目录:/-xx.x/ usr/local/cuda
默认 CUDA:12.1
路径/ usr/local/cuda 指向 CUDA 12.1
在环境变量下方更新:
LD_LIBRARY_PATH 要有/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib
要拥有的路径/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/
对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。
已编译的 NCCL 版本:2.22.3
NCCL 测试地点:
all_reduce、all_gather 和 reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
要运行 NCCL 测试,LD_LIBRARY_PATH 需要通过以下更新。
已 PATHs 在 LD_LIBRARY_PATH 中添加了常见内容:
/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。
EFA 安装程序:1.38.0
英伟达 GDRCopy:2.4
AWS OFI NCC L:1.13.2
AWS OFI NCCL 现在支持单一版本的多个 NCCL 版本
安装路径:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib64 已添加到 LD_LIBRARY_PATH。
EBS 卷类型:gp3
使用 SSM 参数查询 AMI-ID(示例区域为 us-east-1):
OSS 英伟达驱动程序:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output text专有的英伟达驱动程序:
aws ssm get-parameter --region
us-east-1
\ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output text
使用以下方式查询 AMI-ID AWSCLI (示例区域为 us-east-1):
OSS 英伟达驱动程序:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text专有的英伟达驱动程序:
aws ec2 describe-images --region
us-east-1
\ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
版权声明
NVIDIA 容器工具包 1.17.4
在 Container Toolkit 版本 1.17.4 中,现已禁用 CUDA 兼容库的挂载。为了确保与容器工作流程中的多个 CUDA 版本兼容,请确保更新 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如如果您使用 CUDA 兼容层教程中所示。
从 1.37 到 1.38 的 EFA 更新(2025-02-04 发布)
EFA 现在捆绑了 AWS OFI NCCL 插件,该插件现在可以在 /-ofi-nccl/ 中找到。opt/amazon/ofi-nccl rather than the original /opt/aws如果要更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。
Support 政策
此 AMI 的这些 AMIs 组件(如 CUDA 版本)可能会根据框架支持政策进行删除和更改,或者为了优化深度学习容器的
EC2 带有多个网卡的实例
许多支持 EFA 的实例类型也有多个网卡。
DeviceIndex 对于每个网卡来说都是唯一的,并且必须是小于 ENIs p NetworkCard er 限制的非负整数。在 P5 上,p ENIs er 的数量 NetworkCard 为 2,这意味着的唯一有效值 DeviceIndex 是 0 或 1。
对于主网络接口(网卡索引 0,设备索引 0),创建 EFA(带有 ENA 的 EFA)接口。您不能使用仅限 EFA 的网络接口作为主网络接口。
对于每个额外的网络接口,请使用下一个未使用的网卡索引,即设备索引 1,以及 EFA(带有 ENA 的 EFA)或仅限 EFA 的网络接口,具体取决于您的用例,例如 ENA 带宽要求或 IP 地址空间。有关用例示例,请参阅 P5 实例的 EFA 配置。
有关更多信息,请参阅此处的 EFA 指南。
p5/p5e 实例
P5 和 P5e 实例包含 32 个网络接口卡,可以使用以下命令启动: AWS CLI
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en 实例
P5en 包含 16 个网络接口卡,可使用以下 AWS CLI 命令启动:
aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
内核
使用以下命令固定内核版本:
sudo yum versionlock kernel*
我们建议用户避免更新其内核版本(除非有安全补丁),以确保与已安装的驱动程序和软件包版本兼容。如果用户仍想更新,他们可以运行以下命令来取消固定其内核版本:
sudo yum versionlock delete kernel* sudo yum update -y
对于每个新版本的 DLAMI,都使用最新可用的兼容内核。
发布日期:2025-04-22
AMI 的名字
深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 69.3
深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 67.0
已更新
将 Nvidia 驱动程序从 550.144.03 版升级到 550.163.01 版,以解决 2025 年 4 月 NVIDIA G
PU CVEs 显示驱动程序安全公告中提到的问题
发布日期:2025-02-17
AMI 的名字
深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 68.5
深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 66.3
已更新
将 NVIDIA 容器工具包从版本 1.17.3 更新到 1.17.4 版本。有关更多信息,请参阅此处的发行说明页面:https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.
4
已删除
删除了 NVIDIA CUDA 工具包提供的用户空间库 cuobj 和 nvdisasm,以解决在 2025 年 2 月 18 日的 NVIDIA CUDA 工具包安全
公告中 CVEs 出现的问题
发布日期:2025-02-04
AMI 的名字
深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 68.4
深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 66.1
已更新
-
将 EFA 版本从 1.37.0 升级到 1.38.0
发布日期:2025-01-17
AMI 的名字
深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 68.3
深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 66.0
已更新
将 Nvidia 驱动程序从 550.127.05 版升级到 550.144.03 版,以解决 2025 年 1 月 NVIDIA G
PU CVEs 显示驱动程序安全公告中提到的问题
发布日期:2025-01-06
AMI 的名字
深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 68.2
深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 65.9
已更新
将 EFA 从版本 1.34.0 升级到 1.37.0
将 AWS OFI NCCL 从 1.11.0 版升级到 1.13.0 版
发布日期:2024-12-09
AMI 的名字
深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 68.1
深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 65.8
已更新
将 Nvidia 容器工具包从 1.17.0 版升级到 1.17.3 版
发布日期:2024-11-09
AMI 的名字
深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 67.9
深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 65.6
已更新
发布日期:2024-10-22
AMI 的名字
深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 67.7
深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 65.4
已更新
发布日期:2024-10-03
AMI 的名字
深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本
深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 65.2
已更新
发布日期:2024-08-27
AMI 名称:深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 67.0
已更新
-
将 Nvidia 驱动程序和 Fabric Manager 从 535.183.01 版本升级到 550.90.07
根据 Nvidia 的建议,从 Fabric Manager 中删除了多用户外壳要求
将 EFA 版本从 1.32.0 升级到 1.34.0
-
已将所有 CUDA 版本的 NCCL 升级到最新版本 2.22.3
CUDA 12.1、12.2 从 2.18.5+ 升级 .2 CUDA12
CUDA 12.3 从 2.21.5+ 升级 .4 CUDA12
新增了
在目录/-12.4 中添加了 CUDA 工具包版本 12.4 usr/local/cuda
增加了对 P5e 实例 EC2 的支持。
已删除
移除了目录中存在的 CUDA Toolkit 版本 11.8 堆栈 /-11.8 usr/local/cuda
发布日期:2024-08-19
AMI 名称:深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 66.3
新增了
增加了对 G6e 实例 EC2 的支持。
发布日期:2024-06-06
AMI 的名字
深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 65.4
深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 63.9
已更新
将 Nvidia 驱动程序版本从 535.161.08 更新到 535.183.01
发布日期:2024-05-02
AMI 的名字
深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 64.7
深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 63.2
已更新
将 EFA 版本从版本 1.30 更新到版本 1.32
将 AWS OFI NCCL 插件从 1.7.4 版更新到 1.9.1 版
将 Nvidia 容器工具包从版本 1.13.5 更新到 1.15.0 版
新增了
-
添加了 CUDA12 .3 堆栈,包含 CUDA12 .3、NCCL 2.21.5、cudnn 8.9.7
版本 1.15.0 不包括 nvidia-container-runtime和 nvidia-docker2 软件包。建议按照 Nvidia 容器工具 nvidia-container-toolkit包文档直接使用软件包
。
已删除
移除了 CUDA11 /-12. CUDA12 0 处存在的 .7、.0 堆栈 usr/local/cuda-11.7 and /usr/local/cuda
作为从 1.13.5 到 1.15.0 的 Nvidia 容器工具包更新的一部分,删除了 nvidia-docker2 软件包及其命令 nvidia-docker,其中不包括和 nvidia-docker2 软件包。 nvidia-container-runtime
发布日期:2024-04-04
AMI 名称:深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 64.0
新增了
对于 OSS Nvidia 驱动程序 DLAMIs,添加了 G6 和 Gr6 实例支持 EC2
发布日期:2024-03-29
AMI 的名字
深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 62.3
深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 63.2
已更新
在专有和 OSS Nvidia 驱动程序中,将 Nvidia 驱动程序从 535.104.12 更新为 535.161.08。 DLAMIs
-
每个 DLAMI 支持的新实例如下:
使用专有 Nvidia 驱动程序进行深度学习支持 G3(不支持 G3.16x)、P3、p3dn
使用 OSS 进行深度学习 Nvidia Driver 支持 g4dn、G5、p4d、p4de、P5。
已删除
从 Nvidia 专有驱动程序 DLAMI 中移除了 G4dn、G5、G3.16x EC2 实例支持。
发布日期:2024-03-20
AMI 名称:深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 63.1
新增了
在 OSS Nvidia Driver AMI usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/aws 上将 awscliv2 添加为/
发布日期:2024-03-13
AMI 名称:深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 63.0
已更新
-
更新了 OSS Nvidia 驱动程序 DLAMI,支持 G4dN 和 G5,基于它目前的支持如下所示:
深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)支持 P3、p3dn、G3、g4dn、G5。
深度学习基础 OSS Nvidia Driver AMI(亚马逊 Linux 2)支持 g4dn、G5、P4、P5。
建议将 OSS Nvidia 驱动程序 DLAMIs 用于 G4dN、G5、P4、P5。
发布日期:2024-02-13
AMI 的名字
深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 62.1
深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 62.1
已更新
将 OSS Nvidia 驱动程序从 535.129.03 更新到 535.154.05
将 EFA 从 1.29.0 更新到 1.30.0
将 AWS OFI NCCL 从 1.7.3-aws 更新到 1.7.4-aws
发布日期:2024-02-01
AMI 名称:深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 62.0
安全性
版本 61.4
AMI 名称:深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 61.4
已更新
OSS Nvidia 驱动程序从 535.104.12 更新到 535.129.03
版本 61.0
AMI 名称:深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 61.4
已更新
EFA 从 1.26.1 更新到 1.29.0
GDRCopy 已从 2.3 更新到 2.4
新增了
-
AWS 深度学习 AMI (DLAMI) 分为两个独立的组:
使用 Nvidia 专有驱动程序(支持 P3、p3dn、G3、G5、g4dN)的 DLAMI。
使用 Nvidia OSS 驱动程序启用 EFA(支持 P4、P5)的 DLAMI。
有关DLAMI拆分的更多信息,请参阅公告。
有关 AWS CLI 查询,请参阅要点查询 AMI-ID AWSCLI (示例区域为 us-east-1)
版本 60.6
AMI 名称:深度学习基础 AMI(亚马逊 Linux 2)版本 60.6
已更新
AWS OFI NCCL 插件从 1.7.2 版更新到 1.7.3 版
使用 NCCL 版本 2.18.5 更新了 CUDA 12.0-12.1 目录
-
CUDA12.1 已更新为默认 CUDA 版本
将 LD_LIBRARY_PATH 更新为有//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin
对于想要更改为任何不同的 CUDA 版本的客户,请相应地定义 LD_LIBRARY_PATH 和 PATH 变量。
新增了
内核实时补丁现已启用。实时补丁使客户能够将安全漏洞和严重错误补丁应用于正在运行的 Linux 内核,而无需重启或中断正在运行的应用程序。请注意,对内核 5.10.192 的实时补丁支持将于 23 年 11 月 30 日结束。
版本 60.5
AMI 名称:深度学习基础 AMI(亚马逊 Linux 2)版本 60.5
已更新
NVIDIA 驱动程序从 535.54.03 更新到 535.104.12
这个最新的驱动程序修复了在535.54.03驱动程序中发现的NVML ABI重大更改,以及驱动程序535.86.10中发现的影响P5实例上CUDA工具包的驱动程序回归问题。有关修复的详细信息,请参阅以下 NVIDIA 发行说明:
使用 NCCL 2.18.5 更新了 CUDA 12.2 目录
EFA 从 1.24.1 更新到最新的 1.26.1
新增了
在/usr/local/cuda- CUDA12 12.2 处添加了 .2
已删除
移除了对 CUDA 11.5 和 CUDA 11.6 的支持
版本 60.2
AMI 名称:深度学习基础 AMI(亚马逊 Linux 2)版本 60.2
已更新
将 aws-ofi-nccl插件从 1.7.1 版本更新到 1.7.2 版本
版本 60.0
发布日期:2023-08-11
新增了
此 AMI 现在支持 P5 和以前支持的所有实例上的多节点训练功能 EC2
对于 P5 EC2 实例,建议使用 NCCL 2.18,该版本已添加到 CUDA12 .0 和 .1 中。 CUDA12
已删除
移除了对 CUDA11 .5 的支持。
版本 59.2
发布日期:2023-08-08
已删除
移除了 CUDA-11.3 和 CUDA-11.4
版本 59.1
发布日期:2023-08-03
已更新
将 AWS OFI NCCL 插件更新到 v1.7.1
-
将 CUDA11 .8 设为默认 PyTorch 2.0 支持 11.8,对于 P5 EC2 实例,建议使用 >= .8 CUDA11
将 LD_LIBRARY_PATH 更新为有//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin
对于任何不同的 cuda 版本,请相应地定义 LD_LIBRARY_PATH。
Fixed
修复了之前发布日期 2023-07-19 中提到的 Nvidia Fabric Manager (FM) 软件包加载问题。
版本 58.9
发布日期:2023-07-19
已更新
将 Nvidia 驱动程序从 525.85.12 更新到 535.54.03
将 EFA 安装程序从 1.22.1 更新到 1.24.1
新增了
添加了 c 状态更改,通过将最大 c 状态设置为 C1 来禁用处理器的空闲状态。此更改是通过在文件/的 linux 启动参数中设置 `intel_idle.max_cstate=1 processor.max_cstate=1` 来实现的 etc/default/grub
-
AWS EC2 P5 实例支持:
为使用单节点/ EC2 实例的工作流程添加了 P5 实例支持。在即将发布的版本中,将添加使用 EFA(弹性结构适配器)和 AWS OFI NCCL 插件的多节点支持(例如用于多节点训练)。
请使用 CUDA>=11.8 以获得最佳性能。
已知问题:Nvidia Fabric Manager (FM) 软件包在 P5 上加载需要时间,客户在启动 P5 实例后需要等待 2-3 分钟,直到 FM 加载。要检查 FM 是否已启动,请运行命令 sudo systemctl is-active nvidia-fabricmanager,它应该在开始任何工作流程之前恢复活动状态。这个问题将在即将发布的版本中修复。
版本 58.0
发布日期:2023-05-19
已删除
根据本文档顶部部分提到的支持政策,已删除 CUDA11 .0-11.2 堆栈。
版本 57.3
发布日期:2023-04-06
新增了
添加了英伟达 GDRCopy 2.3
版本 56.8
发布日期:2023-03-09
已更新
将 NVIDIA 驱动程序从 515.65.01 更新到 525.85.12
新增了
在 /-11.8/ 处添加了 cuda-11.8 usr/local/cuda
版本 56.0
发布日期:2022-12-06
已更新
已将 EFA 版本从 1.17.2 更新到 1.19.0
版本 55.0
发布日期:2022-11-04
已更新
将 NVIDIA 驱动程序从 510.47.03 更新到 515.65.01
新增了
在 /-11.7/ 处添加了 cuda-11.7 usr/local/cuda
版本 54.0
发布日期:2022-09-15
已更新
将 EFA 版本从 1.16.0 更新到 1.17.2
版本 53.3
发布日期:2022-05-25
已更新
已更新 aws-efa-installer至 1.15.2 版本
已更新 aws-ofi-nccl至 1.3.0-aws 版本,其中包含 p4de.24xlarge 的拓扑。
新增了
此版本增加了对 p4de EC2 .24xlarge 实例的支持。
版本 53.0
发布日期:2022-04-28
新增了
已添加亚马逊 CloudWatch 代理
-
添加了三个 systemd 服务,它们使用路径/ opt/aws/amazon-cloudwatch-agent/etc /中可用的预定义 json 文件使用 linux 用户 cwagent 配置 GPU 指标
-
dlami-cloudwatch-agent@minimal
启用 GPU 指标的命令:
sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal
它创建了以下指标:
utilization_gpu
,utilization_memory
-
dlami-cloudwatch-agent@partial
启用 GPU 指标的命令:
sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial
它创建了以下指标:
utilization_gpu
、utilization_memory
、memory_total
、memory_used
、memory_free
-
dlami-cloudwatch-agent@all
-
启用 GPU 指标的命令:
sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all
它会创建所有可用的 GPU 指标
-
-
版本 52.0
发布日期:2022-03-08
已更新
已将内核版本更新到 5.10
版本 51.0
发布日期:2022-03-04
已更新
已将 Nvidia 驱动程序更新到 510.47.03
版本 50.0
发布日期:2022-02-17
已更新
已锁定 aws-neuron-dkms, tensorflow-model-server-neuron当它们更新到 AMI 中存在的 Neuron 包不支持的较新版本时
如果客户想解锁软件包以将其更新到最新版本,则会发出命令:sudo yum versionlock 删除 sudo yum ver aws-neuron-dkms sionlock 删除 tensorflow-model-server-neuron
版本 49.0
发布日期:2022-01-13
新增了
添加了 CUDA11 .2,其中包含以下组件:
cudnn v8.1.1.33
NCCL 2.8.4
CUDA 11.2.2
已更新
将符号链接 pip 更新为 pip3
弃用
已弃用对 P2 实例类型的支持
弃用了 python2.7 并删除了相关的 python2.7 软件包,例如 “python-dev”、“python-pip” 和 “python-tk”
版本 48.0
发布日期:2021-12-27
已更新
已从 cuda 版本中移除了 org.apache.ant_1.9.2.v201404171502\ lib\ ant-apache-log 4j.jar,因为它没有被使用,对拥有 Log4j 文件的用户没有风险。有关更多信息,请参阅 https://nvidia.custhelp.com/app/answers/detail/a_id/
5294。
版本 47.0
发布日期:2021-11-24
已更新
已将 EFA 更新到 1.14.1
版本 46.0
发布日期:2021-11-12
已更新
从 aws-neuron-dkms =1.5 更新了 Neuron 软件包。 *,aws-neuron-runtime-base=1.5。 *, aws-neuron-tools=1.6.* 到 =2.2。 aws-neuron-dkms *,aws-neuron-runtime-base=1.6。 *, aws-neuron-tools=2.0.*。
移除了 Neuron 包 aws-neuron-runtime =1.5.*,因为 Neuron 的运行时不再作为守护程序运行,并且运行时现在已作为库与框架集成。
版本 45.0
发布日期:2021-10-21
新增了
JSON 格式的安全扫描报告可在 opt/aws/dlami/info //中找到。
版本 44.0
发布日期:2021-10-08
Changed
每次使用 DLAMI 启动实例时,都会添加标签 aws-dlami-autogenerated-tag “do-not-delete-”,用于收集实例类型、实例 ID、DLAMI 类型和操作系统信息。 AWS 不会收集或保留有关在 DLAMI 中使用的命令的信息。不会收集或保留有关 DLAMI 的其他信息。要选择退出对您的 DLAMI 的使用情况跟踪,请在启动期间向您的 EC2 亚马逊实例添加标签。标签应使用密钥 OPT_OUT_TRACKING,关联值设置为 true。有关更多信息,请参阅标记您的 Amazon EC2 资源。
安全性
将 docker 版本更新为 docker-20.10.7-3
版本 43.0
发布日期:2021-08-24
Changed
将 “笔记本” 更新至版本 “6.4.1”。
版本 42.0
发布日期:2021-07-23
Changed
已将 Nvidia 驱动程序和 Fabric Manager 版本更新到 450.142.00。
版本 41.0
发布日期:2021-06-24
Changed
根据 Neuron 版本 1.14.0 更新了 Neuron 软件包
版本 40.0
发布日期:2021-06-10
Changed
将 awscli 版本更新到 1.19.89
版本 39.0
发布日期:2021-05-27
安全性
从 CUDA-10.0 安装(/-10.0)中移除了易受攻击的 CUDA-10.0 组件(Visual Profiler、Nsight EE 和 JRE)。usr/local/cuda
版本 38.0
发布日期:2021-05-25
Changed
将 runc 升级到最新版本
版本 37.0
发布日期:2021-04-23
Changed
已将 Nvidia Tesla 驱动程序和 Fabric Manager 版本更新到 450.119.
版本 36.1
发布日期:2021-04-21
Fixed
修复了导致实例启动速度变慢的问题。
版本 36.0
发布日期:2021-03-24
新增了
添加 tensorflow-model-server-neuron以支持神经元模型服务。
Changed
已将 python3 的 jupyterlab 升级到版本 3.0.8。
Fixed
/中已安装的 OpenMPI 旧版本已可用。usr/local/mpi caused /opt/amazon/openmpi/bin/mpirun to be linked incorrectly. To fix the link issue, we removed /usr/local/mpi installation, OpenMPI installation in /opt/amazon/openmpi
移除已污染外壳环境变量(例如 PATH 和 LD_LIBRARY_PATH)的重复和不存在的外壳环境定义。结果,添加了 ~/.dlami 和/etc/profile.d/var.sh has been removed, and /etc/profile.d/dlami.sh。
安全性
版本 35.0
发布日期:2021-03-08
新增了
添加了 Tensorrt
CUDA 11.0 安装程序
版本 34.3
发布日期:2021-02-25
Fixed
修复了 MOTD(每日消息)中错误显示版本 34.1 的错字。
版本 34.2
发布日期:2021-02-24
安全性
为 CVE-2021-3177 修补了 python2 和 python3
已知问题
MOTD(当天消息)中有一个错字,显示的版本34.1不正确,我们将发布版本34.3来解决这个问题。
版本 34.0
发布日期:2021-02-09
Changed
将 pip 固定到 python2 的 20.3.4 版本,这是最后一个支持 python2 和 python3.5 的 pip 版本。
版本 33.0
发布日期:2021-01-19
Changed
在 .0 和 .1 中将 cuDNN 版本更新到 v8.0.5.39 CUDA11。 CUDA11
版本 32.0
发布日期:2020-12-01
新增了
在 NCCL 2.7.8 中添加了 CUDA11 .1、深度学习 AMI(亚马逊 Linux 2)的 cuDNN 8.0.4.30、深度学习 AMI(Ubuntu 16.04)、深度学习 AMI(Ubuntu 18.04)、深度学习基础 AMI(Ubuntu 16.04)、深度学习基础 AMI(Ubuntu 18.04)、深度学习基础 AMI(亚马逊 Linux 2)。
版本 31.0
发布日期:2020-11-02
Changed
已将 EFA 安装程序升级到版本 1.10.0。
已将 CUDA 11.0 的 cudnn 版本升级到 v8.0.4.30。
已将 AWS Neuron 升级到 1.1 版
版本 30.0
发布日期:2020-10-08
Changed
将 NVIDIA 驱动程序和结构管理器版本更新至 450.80.02
在 .0 中将 NCCL 更新到 2.7.8 CUDA11
Fixed
修复了 yum 托管 python 包被 pipmanaged 安装覆盖的问题。可执行文件 pip、pip3 和 pip3.7 已从本修复程序的/ usr/binto /usr/local/binas 部分中移除。
版本 29.0
发布日期:2020-09-11
Changed
将 NVIDIA 驱动程序从 450.51.05 版本更新到 450.51.06
添加了 NVIDIA 结构管理器 450.51.06 版本
已将 EFA 升级到 1.9.4
版本 28.0
发布日期:2020-08-19
Changed
添加了 CUDA 11.0 堆栈 NCCL 2.7.6 和 cudnn 8.0.2.39
版本 27.0
发布日期:2020-08-07
Changed
已将 EFA 从版本 1.7.1 升级到 1.9.3,网址为/opt/amazon/efa
在 '/ usr/local/mpi’. Open MPI at ‘/opt/amazon/openmpi/bin/mpirun '中将 Open MPI 从 4.0.3 版本升级到 4.0.4 版本仍处于 4.0.3 版本
将 NVIDIA 驱动程序从 440.33.01 更新到 450.51.05
在 0.2 中将 NCCL 版本从 2.6.4 升级到 2.7.6 CUDA1
版本 26.0
发布日期:2020-08-03
Changed
已将 AWS OFI NCCL 升级到最新版本,详情请见此处
。 Cuda 8.0/9.0/9.2 已从 AMI 中删除
Fixed
修复了无法打开共享目标文件:libopencv_dnn.so.4.2 的错误。
版本 25.0
发布日期:2020-07-19
Changed
EFA 版本已更新至 1.7.1 以支持 NCCL 2.6.4
CUDA 10.2 的 NCCL 版本更新为 2.6.4
awscli 版本从 1.16.76 更新到 1.18.80
boto3 版本从 1.9.72 更新到 1.14.3
版本 24.1
发布日期:2020-06-14
Changed
Docker 版本已更新至 19.03.6
版本 24.0
发布日期:2020-05-20
Changed
Docker 版本已更新至 19.03.6
版本 23.0
发布日期:2020-04-29
Changed
升级的 python 包版本
版本 22.0
发布日期:2020-03-04
Changed
添加了 CUDA 10.2 堆栈
更新了 cudnn 和 NCCL 版本的 CUDA 10.0 和 10.1