AWS 深度学习基础 AMI(亚马逊 Linux 2) - AWS Deep Learning AMIs

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS 深度学习基础 AMI(亚马逊 Linux 2)

如需入门帮助,请参阅DLAMI 入门

AMI 名称格式

  • 深度学习基础 OSS Nvidia Driver AMI(亚马逊 Linux 2)版本 $ {XX.X}

  • 深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 $ {XX.X}

支持的 EC2 实例

  • 请参阅 DLAMI 的重要更改

  • 使用 OSS 进行深度学习 Nvidia Driver 支持 G4dn、G5、G6、Gr6、G6e、p4d、p4de、P5、p5e、p5e、p5eN

  • 使用专有 Nvidia 驱动程序进行深度学习支持 G3(不支持 G3.16x)、P3、p3dn

AMI 包括以下内容:

  • 支持的 AWS 服务:Amazon EC2

  • 操作系统:亚马逊 Linux 2

  • 计算架构:x86

  • 已为以下软件包安装了最新的可用版本:

    • Linux 内核:5.10

    • Docker

    • AWS CLI v2 位于/usr/local/bin/aws2 和 AWS CLI v1 位于/usr/bin/aws

    • 英伟达容器工具包

      • 版本命令: nvidia-container-cli-V

    • nvidia-docker2

      • 版本命令:nvidia-docker 版本

  • Python:/usr/bin/python3.7

  • 英伟达驱动程序

    • OSS Nvidia 驱动程序:550.163.01

    • Nvidia 专有驱动程序:550.163.01

  • NVIDIA CUDA 12.1-12.4 堆栈:

    • CUDA、NCCL 和 cudDN 安装目录:/-xx.x/ usr/local/cuda

    • 默认 CUDA:12.1

      • 路径/ usr/local/cuda 指向 CUDA 12.1

      • 在环境变量下方更新:

        • LD_LIBRARY_PATH 要有/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • 要拥有的路径/usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/

        • 对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。

    • 已编译的 NCCL 版本:2.22.3

    • NCCL 测试地点:

      • all_reduce、all_gather 和 reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

      • 要运行 NCCL 测试,LD_LIBRARY_PATH 需要通过以下更新。

        • 已 PATHs 在 LD_LIBRARY_PATH 中添加了常见内容:

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • 对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。

  • EFA 安装程序:1.38.0

  • 英伟达 GDRCopy:2.4

  • AWS OFI NCC L:1.13.2

    • AWS OFI NCCL 现在支持单一版本的多个 NCCL 版本

    • 安装路径:/opt/amazon/ofi-nccl/ . Path /opt/amazon/ofi-nccl/lib64 已添加到 LD_LIBRARY_PATH。

  • EBS 卷类型:gp3

  • 使用 SSM 参数查询 AMI-ID(示例区域为 us-east-1):

    • OSS 英伟达驱动程序:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-amazon-linux-2/latest/ami-id  \ --query "Parameter.Value" \ --output text
    • 专有的英伟达驱动程序:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id \ --query "Parameter.Value" \ --output text
  • 使用以下方式查询 AMI-ID AWSCLI (示例区域为 us-east-1):

    • OSS 英伟达驱动程序:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • 专有的英伟达驱动程序:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

版权声明

NVIDIA 容器工具包 1.17.4

在 Container Toolkit 版本 1.17.4 中,现已禁用 CUDA 兼容库的挂载。为了确保与容器工作流程中的多个 CUDA 版本兼容,请确保更新 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如如果您使用 CUDA 兼容层教程中所示。

从 1.37 到 1.38 的 EFA 更新(2025-02-04 发布)

EFA 现在捆绑了 AWS OFI NCCL 插件,该插件现在可以在 /-ofi-nccl/ 中找到。opt/amazon/ofi-nccl rather than the original /opt/aws如果要更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。

Support 政策

此 AMI 的这些 AMIs 组件(如 CUDA 版本)可能会根据框架支持政策进行删除和更改,或者为了优化深度学习容器的性能或在未来的版本中缩小 AMI 大小,恕不另行通知。 AMIs 如果 CUDA 版本未被任何支持的框架版本使用,我们会将其从中删除。

EC2 带有多个网卡的实例
  • 许多支持 EFA 的实例类型也有多个网卡。

  • DeviceIndex 对于每个网卡来说都是唯一的,并且必须是小于 ENIs p NetworkCard er 限制的非负整数。在 P5 上,p ENIs er 的数量 NetworkCard 为 2,这意味着的唯一有效值 DeviceIndex 是 0 或 1。

    • 对于主网络接口(网卡索引 0,设备索引 0),创建 EFA(带有 ENA 的 EFA)接口。您不能使用仅限 EFA 的网络接口作为主网络接口。

    • 对于每个额外的网络接口,请使用下一个未使用的网卡索引,即设备索引 1,以及 EFA(带有 ENA 的 EFA)或仅限 EFA 的网络接口,具体取决于您的用例,例如 ENA 带宽要求或 IP 地址空间。有关用例示例,请参阅 P5 实例的 EFA 配置。

    • 有关更多信息,请参阅此处的 EFA 指南。

p5/p5e 实例
  • P5 和 P5e 实例包含 32 个网络接口卡,可以使用以下命令启动: AWS CLI

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en 实例
  • P5en 包含 16 个网络接口卡,可使用以下 AWS CLI 命令启动:

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
内核
  • 使用以下命令固定内核版本:

    sudo yum versionlock kernel*
  • 我们建议用户避免更新其内核版本(除非有安全补丁),以确保与已安装的驱动程序和软件包版本兼容。如果用户仍想更新,他们可以运行以下命令来取消固定其内核版本:

    sudo yum versionlock delete kernel* sudo yum update -y
  • 对于每个新版本的 DLAMI,都使用最新可用的兼容内核。

发布日期:2025-04-22

AMI 的名字
  • 深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 69.3

  • 深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 67.0

已更新

  • 将 Nvidia 驱动程序从 550.144.03 版升级到 550.163.01 版,以解决 2025 年 4 月 NVIDIA G PU CVEs 显示驱动程序安全公告中提到的问题

发布日期:2025-02-17

AMI 的名字
  • 深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 68.5

  • 深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 66.3

已更新

已删除

  • 删除了 NVIDIA CUDA 工具包提供的用户空间库 cuobj 和 nvdisasm,以解决在 2025 年 2 月 18 日的 NVIDIA CUDA 工具包安全公告中 CVEs 出现的问题

发布日期:2025-02-04

AMI 的名字
  • 深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 68.4

  • 深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 66.1

已更新

  • 将 EFA 版本从 1.37.0 升级到 1.38.0

发布日期:2025-01-17

AMI 的名字
  • 深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 68.3

  • 深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 66.0

已更新

  • 将 Nvidia 驱动程序从 550.127.05 版升级到 550.144.03 版,以解决 2025 年 1 月 NVIDIA G PU CVEs 显示驱动程序安全公告中提到的问题

发布日期:2025-01-06

AMI 的名字
  • 深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 68.2

  • 深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 65.9

已更新

  • 将 EFA 从版本 1.34.0 升级到 1.37.0

  • 将 AWS OFI NCCL 从 1.11.0 版升级到 1.13.0 版

发布日期:2024-12-09

AMI 的名字
  • 深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 68.1

  • 深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 65.8

已更新

  • 将 Nvidia 容器工具包从 1.17.0 版升级到 1.17.3 版

发布日期:2024-11-09

AMI 的名字
  • 深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 67.9

  • 深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 65.6

已更新

发布日期:2024-10-22

AMI 的名字
  • 深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 67.7

  • 深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 65.4

已更新

发布日期:2024-10-03

AMI 的名字
  • 深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本

  • 深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 65.2

已更新

发布日期:2024-08-27

AMI 名称:深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 67.0

已更新

  • 将 Nvidia 驱动程序和 Fabric Manager 从 535.183.01 版本升级到 550.90.07

  • 将 EFA 版本从 1.32.0 升级到 1.34.0

  • 已将所有 CUDA 版本的 NCCL 升级到最新版本 2.22.3

    • CUDA 12.1、12.2 从 2.18.5+ 升级 .2 CUDA12

    • CUDA 12.3 从 2.21.5+ 升级 .4 CUDA12

新增了

  • 在目录/-12.4 中添加了 CUDA 工具包版本 12.4 usr/local/cuda

  • 增加了对 P5e 实例 EC2 的支持。

已删除

  • 移除了目录中存在的 CUDA Toolkit 版本 11.8 堆栈 /-11.8 usr/local/cuda

发布日期:2024-08-19

AMI 名称:深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 66.3

新增了

  • 增加了对 G6e 实例 EC2 的支持。

发布日期:2024-06-06

AMI 的名字
  • 深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 65.4

  • 深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 63.9

已更新

  • 将 Nvidia 驱动程序版本从 535.161.08 更新到 535.183.01

发布日期:2024-05-02

AMI 的名字
  • 深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 64.7

  • 深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 63.2

已更新

  • 将 EFA 版本从版本 1.30 更新到版本 1.32

  • 将 AWS OFI NCCL 插件从 1.7.4 版更新到 1.9.1 版

  • 将 Nvidia 容器工具包从版本 1.13.5 更新到 1.15.0 版

新增了

已删除

  • 移除了 CUDA11 /-12. CUDA12 0 处存在的 .7、.0 堆栈 usr/local/cuda-11.7 and /usr/local/cuda

  • 作为从 1.13.5 到 1.15.0 的 Nvidia 容器工具包更新的一部分,删除了 nvidia-docker2 软件包及其命令 nvidia-docker,其中不包括和 nvidia-docker2 软件包。 nvidia-container-runtime

发布日期:2024-04-04

AMI 名称:深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 64.0

新增了

  • 对于 OSS Nvidia 驱动程序 DLAMIs,添加了 G6 和 Gr6 实例支持 EC2

发布日期:2024-03-29

AMI 的名字
  • 深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 62.3

  • 深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 63.2

已更新

  • 在专有和 OSS Nvidia 驱动程序中,将 Nvidia 驱动程序从 535.104.12 更新为 535.161.08。 DLAMIs

  • 每个 DLAMI 支持的新实例如下:

    • 使用专有 Nvidia 驱动程序进行深度学习支持 G3(不支持 G3.16x)、P3、p3dn

    • 使用 OSS 进行深度学习 Nvidia Driver 支持 g4dn、G5、p4d、p4de、P5。

已删除

  • 从 Nvidia 专有驱动程序 DLAMI 中移除了 G4dn、G5、G3.16x EC2 实例支持。

发布日期:2024-03-20

AMI 名称:深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 63.1

新增了

  • 在 OSS Nvidia Driver AMI usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/aws 上将 awscliv2 添加为/

发布日期:2024-03-13

AMI 名称:深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 63.0

已更新

  • 更新了 OSS Nvidia 驱动程序 DLAMI,支持 G4dN 和 G5,基于它目前的支持如下所示:

    • 深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)支持 P3、p3dn、G3、g4dn、G5。

    • 深度学习基础 OSS Nvidia Driver AMI(亚马逊 Linux 2)支持 g4dn、G5、P4、P5。

  • 建议将 OSS Nvidia 驱动程序 DLAMIs 用于 G4dN、G5、P4、P5。

发布日期:2024-02-13

AMI 的名字
  • 深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 62.1

  • 深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 62.1

已更新

  • 将 OSS Nvidia 驱动程序从 535.129.03 更新到 535.154.05

  • 将 EFA 从 1.29.0 更新到 1.30.0

  • 将 AWS OFI NCCL 从 1.7.3-aws 更新到 1.7.4-aws

发布日期:2024-02-01

AMI 名称:深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 62.0

安全性

版本 61.4

AMI 名称:深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 61.4

已更新

  • OSS Nvidia 驱动程序从 535.104.12 更新到 535.129.03

版本 61.0

AMI 名称:深度学习基础 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 61.4

已更新

  • EFA 从 1.26.1 更新到 1.29.0

  • GDRCopy 已从 2.3 更新到 2.4

新增了

  • AWS 深度学习 AMI (DLAMI) 分为两个独立的组:

    • 使用 Nvidia 专有驱动程序(支持 P3、p3dn、G3、G5、g4dN)的 DLAMI。

    • 使用 Nvidia OSS 驱动程序启用 EFA(支持 P4、P5)的 DLAMI。

  • 有关DLAMI拆分的更多信息,请参阅公告

  • 有关 AWS CLI 查询,请参阅要点查询 AMI-ID AWSCLI (示例区域为 us-east-1

版本 60.6

AMI 名称:深度学习基础 AMI(亚马逊 Linux 2)版本 60.6

已更新

  • AWS OFI NCCL 插件从 1.7.2 版更新到 1.7.3 版

  • 使用 NCCL 版本 2.18.5 更新了 CUDA 12.0-12.1 目录

  • CUDA12.1 已更新为默认 CUDA 版本

    • 将 LD_LIBRARY_PATH 更新为有//usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1 and PATH to have /usr/local/cuda-12.1/bin

    • 对于想要更改为任何不同的 CUDA 版本的客户,请相应地定义 LD_LIBRARY_PATH 和 PATH 变量。

新增了

  • 内核实时补丁现已启用。实时补丁使客户能够将安全漏洞和严重错误补丁应用于正在运行的 Linux 内核,而无需重启或中断正在运行的应用程序。请注意,对内核 5.10.192 的实时补丁支持将于 23 年 11 月 30 日结束。

版本 60.5

AMI 名称:深度学习基础 AMI(亚马逊 Linux 2)版本 60.5

已更新

  • NVIDIA 驱动程序从 535.54.03 更新到 535.104.12

    这个最新的驱动程序修复了在535.54.03驱动程序中发现的NVML ABI重大更改,以及驱动程序535.86.10中发现的影响P5实例上CUDA工具包的驱动程序回归问题。有关修复的详细信息,请参阅以下 NVIDIA 发行说明:

    • 423594 1-NVML ABI 重大更改修复

    • 422855 2-CUDA 工具包错误修复

  • 使用 NCCL 2.18.5 更新了 CUDA 12.2 目录

  • EFA 从 1.24.1 更新到最新的 1.26.1

新增了

  • 在/usr/local/cuda- CUDA12 12.2 处添加了 .2

已删除

  • 移除了对 CUDA 11.5 和 CUDA 11.6 的支持

版本 60.2

AMI 名称:深度学习基础 AMI(亚马逊 Linux 2)版本 60.2

已更新

  • 将 aws-ofi-nccl插件从 1.7.1 版本更新到 1.7.2 版本

版本 60.0

发布日期:2023-08-11

新增了

  • 此 AMI 现在支持 P5 和以前支持的所有实例上的多节点训练功能 EC2

  • 对于 P5 EC2 实例,建议使用 NCCL 2.18,该版本已添加到 CUDA12 .0 和 .1 中。 CUDA12

已删除

  • 移除了对 CUDA11 .5 的支持。

版本 59.2

发布日期:2023-08-08

已删除

  • 移除了 CUDA-11.3 和 CUDA-11.4

版本 59.1

发布日期:2023-08-03

已更新

  • 将 AWS OFI NCCL 插件更新到 v1.7.1

  • 将 CUDA11 .8 设为默认 PyTorch 2.0 支持 11.8,对于 P5 EC2 实例,建议使用 >= .8 CUDA11

    • 将 LD_LIBRARY_PATH 更新为有//usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8 and PATH to have /usr/local/cuda-11.8/bin

    • 对于任何不同的 cuda 版本,请相应地定义 LD_LIBRARY_PATH。

Fixed

  • 修复了之前发布日期 2023-07-19 中提到的 Nvidia Fabric Manager (FM) 软件包加载问题。

版本 58.9

发布日期:2023-07-19

已更新

  • 将 Nvidia 驱动程序从 525.85.12 更新到 535.54.03

  • 将 EFA 安装程序从 1.22.1 更新到 1.24.1

新增了

  • 添加了 c 状态更改,通过将最大 c 状态设置为 C1 来禁用处理器的空闲状态。此更改是通过在文件/的 linux 启动参数中设置 `intel_idle.max_cstate=1 processor.max_cstate=1` 来实现的 etc/default/grub

  • AWS EC2 P5 实例支持:

    • 为使用单节点/ EC2 实例的工作流程添加了 P5 实例支持。在即将发布的版本中,将添加使用 EFA(弹性结构适配器)和 AWS OFI NCCL 插件的多节点支持(例如用于多节点训练)。

    • 请使用 CUDA>=11.8 以获得最佳性能。

    • 已知问题:Nvidia Fabric Manager (FM) 软件包在 P5 上加载需要时间,客户在启动 P5 实例后需要等待 2-3 分钟,直到 FM 加载。要检查 FM 是否已启动,请运行命令 sudo systemctl is-active nvidia-fabricmanager,它应该在开始任何工作流程之前恢复活动状态。这个问题将在即将发布的版本中修复。

版本 58.0

发布日期:2023-05-19

已删除

  • 根据本文档顶部部分提到的支持政策,已删除 CUDA11 .0-11.2 堆栈。

版本 57.3

发布日期:2023-04-06

新增了

  • 添加了英伟达 GDRCopy 2.3

版本 56.8

发布日期:2023-03-09

已更新

  • 将 NVIDIA 驱动程序从 515.65.01 更新到 525.85.12

新增了

  • 在 /-11.8/ 处添加了 cuda-11.8 usr/local/cuda

版本 56.0

发布日期:2022-12-06

已更新

  • 已将 EFA 版本从 1.17.2 更新到 1.19.0

版本 55.0

发布日期:2022-11-04

已更新

  • 将 NVIDIA 驱动程序从 510.47.03 更新到 515.65.01

新增了

  • 在 /-11.7/ 处添加了 cuda-11.7 usr/local/cuda

版本 54.0

发布日期:2022-09-15

已更新

  • 将 EFA 版本从 1.16.0 更新到 1.17.2

版本 53.3

发布日期:2022-05-25

已更新

  • 已更新 aws-efa-installer至 1.15.2 版本

  • 已更新 aws-ofi-nccl至 1.3.0-aws 版本,其中包含 p4de.24xlarge 的拓扑。

新增了

  • 此版本增加了对 p4de EC2 .24xlarge 实例的支持。

版本 53.0

发布日期:2022-04-28

新增了

  • 已添加亚马逊 CloudWatch 代理

  • 添加了三个 systemd 服务,它们使用路径/ opt/aws/amazon-cloudwatch-agent/etc /中可用的预定义 json 文件使用 linux 用户 cwagent 配置 GPU 指标

    • dlami-cloudwatch-agent@minimal

      • 启用 GPU 指标的命令:

        sudo systemctl enable dlami-cloudwatch-agent@minimal sudo systemctl start dlami-cloudwatch-agent@minimal
      • 它创建了以下指标:utilization_gpuutilization_memory

    • dlami-cloudwatch-agent@partial

      • 启用 GPU 指标的命令:

        sudo systemctl enable dlami-cloudwatch-agent@partial sudo systemctl start dlami-cloudwatch-agent@partial
      • 它创建了以下指标:utilization_gpuutilization_memorymemory_totalmemory_usedmemory_free

    • dlami-cloudwatch-agent@all

      • 启用 GPU 指标的命令:

        sudo systemctl enable dlami-cloudwatch-agent@all sudo systemctl start dlami-cloudwatch-agent@all
      • 它会创建所有可用的 GPU 指标

版本 52.0

发布日期:2022-03-08

已更新

  • 已将内核版本更新到 5.10

版本 51.0

发布日期:2022-03-04

已更新

  • 已将 Nvidia 驱动程序更新到 510.47.03

版本 50.0

发布日期:2022-02-17

已更新

  • 已锁定 aws-neuron-dkms, tensorflow-model-server-neuron当它们更新到 AMI 中存在的 Neuron 包不支持的较新版本时

    • 如果客户想解锁软件包以将其更新到最新版本,则会发出命令:sudo yum versionlock 删除 sudo yum ver aws-neuron-dkms sionlock 删除 tensorflow-model-server-neuron

版本 49.0

发布日期:2022-01-13

新增了

  • 添加了 CUDA11 .2,其中包含以下组件:

    • cudnn v8.1.1.33

    • NCCL 2.8.4

    • CUDA 11.2.2

已更新

  • 将符号链接 pip 更新为 pip3

弃用

  • 已弃用对 P2 实例类型的支持

  • 弃用了 python2.7 并删除了相关的 python2.7 软件包,例如 “python-dev”、“python-pip” 和 “python-tk”

版本 48.0

发布日期:2021-12-27

已更新

  • 已从 cuda 版本中移除了 org.apache.ant_1.9.2.v201404171502\ lib\ ant-apache-log 4j.jar,因为它没有被使用,对拥有 Log4j 文件的用户没有风险。有关更多信息,请参阅 https://nvidia.custhelp.com/app/answers/detail/a_id/ 5294。

版本 47.0

发布日期:2021-11-24

已更新

  • 已将 EFA 更新到 1.14.1

版本 46.0

发布日期:2021-11-12

已更新

  • 从 aws-neuron-dkms =1.5 更新了 Neuron 软件包。 *aws-neuron-runtime-base=1.5。 *, aws-neuron-tools=1.6.* 到 =2.2。 aws-neuron-dkms *aws-neuron-runtime-base=1.6。 *, aws-neuron-tools=2.0.*。

  • 移除了 Neuron 包 aws-neuron-runtime =1.5.*,因为 Neuron 的运行时不再作为守护程序运行,并且运行时现在已作为库与框架集成。

版本 45.0

发布日期:2021-10-21

新增了

  • JSON 格式的安全扫描报告可在 opt/aws/dlami/info //中找到。

版本 44.0

发布日期:2021-10-08

Changed

  • 每次使用 DLAMI 启动实例时,都会添加标签 aws-dlami-autogenerated-tag “do-not-delete-”,用于收集实例类型、实例 ID、DLAMI 类型和操作系统信息。 AWS 不会收集或保留有关在 DLAMI 中使用的命令的信息。不会收集或保留有关 DLAMI 的其他信息。要选择退出对您的 DLAMI 的使用情况跟踪,请在启动期间向您的 EC2 亚马逊实例添加标签。标签应使用密钥 OPT_OUT_TRACKING,关联值设置为 true。有关更多信息,请参阅标记您的 Amazon EC2 资源

安全性

  • 将 docker 版本更新为 docker-20.10.7-3

版本 43.0

发布日期:2021-08-24

Changed

  • 将 “笔记本” 更新至版本 “6.4.1”。

版本 42.0

发布日期:2021-07-23

Changed

  • 已将 Nvidia 驱动程序和 Fabric Manager 版本更新到 450.142.00。

版本 41.0

发布日期:2021-06-24

Changed

  • 根据 Neuron 版本 1.14.0 更新了 Neuron 软件包

版本 40.0

发布日期:2021-06-10

Changed

  • 将 awscli 版本更新到 1.19.89

版本 39.0

发布日期:2021-05-27

安全性

  • 从 CUDA-10.0 安装(/-10.0)中移除了易受攻击的 CUDA-10.0 组件(Visual Profiler、Nsight EE 和 JRE)。usr/local/cuda

版本 38.0

发布日期:2021-05-25

Changed

  • 将 runc 升级到最新版本

版本 37.0

发布日期:2021-04-23

Changed

  • 已将 Nvidia Tesla 驱动程序和 Fabric Manager 版本更新到 450.119.

版本 36.1

发布日期:2021-04-21

Fixed

  • 修复了导致实例启动速度变慢的问题。

版本 36.0

发布日期:2021-03-24

新增了

  • 添加 tensorflow-model-server-neuron以支持神经元模型服务。

Changed

  • 已将 python3 的 jupyterlab 升级到版本 3.0.8。

Fixed

  • /中已安装的 OpenMPI 旧版本已可用。usr/local/mpi caused /opt/amazon/openmpi/bin/mpirun to be linked incorrectly. To fix the link issue, we removed /usr/local/mpi installation, OpenMPI installation in /opt/amazon/openmpi

  • 移除已污染外壳环境变量(例如 PATH 和 LD_LIBRARY_PATH)的重复和不存在的外壳环境定义。结果,添加了 ~/.dlami 和/etc/profile.d/var.sh has been removed, and /etc/profile.d/dlami.sh。

安全性

版本 35.0

发布日期:2021-03-08

新增了

  • 添加了 Tensorrt CUDA 11.0 安装程序

版本 34.3

发布日期:2021-02-25

Fixed

  • 修复了 MOTD(每日消息)中错误显示版本 34.1 的错字。

版本 34.2

发布日期:2021-02-24

安全性

  • 为 CVE-2021-3177 修补了 python2 和 python3

已知问题

  • MOTD(当天消息)中有一个错字,显示的版本34.1不正确,我们将发布版本34.3来解决这个问题。

版本 34.0

发布日期:2021-02-09

Changed

  • 将 pip 固定到 python2 的 20.3.4 版本,这是最后一个支持 python2 和 python3.5 的 pip 版本。

版本 33.0

发布日期:2021-01-19

Changed

  • 在 .0 和 .1 中将 cuDNN 版本更新到 v8.0.5.39 CUDA11。 CUDA11

版本 32.0

发布日期:2020-12-01

新增了

  • 在 NCCL 2.7.8 中添加了 CUDA11 .1、深度学习 AMI(亚马逊 Linux 2)的 cuDNN 8.0.4.30、深度学习 AMI(Ubuntu 16.04)、深度学习 AMI(Ubuntu 18.04)、深度学习基础 AMI(Ubuntu 16.04)、深度学习基础 AMI(Ubuntu 18.04)、深度学习基础 AMI(亚马逊 Linux 2)。

版本 31.0

发布日期:2020-11-02

Changed

  • 已将 EFA 安装程序升级到版本 1.10.0。

  • 已将 CUDA 11.0 的 cudnn 版本升级到 v8.0.4.30。

  • 已将 AWS Neuron 升级到 1.1 版

版本 30.0

发布日期:2020-10-08

Changed

  • 将 NVIDIA 驱动程序和结构管理器版本更新至 450.80.02

  • 在 .0 中将 NCCL 更新到 2.7.8 CUDA11

Fixed

  • 修复了 yum 托管 python 包被 pipmanaged 安装覆盖的问题。可执行文件 pip、pip3 和 pip3.7 已从本修复程序的/ usr/binto /usr/local/binas 部分中移除。

版本 29.0

发布日期:2020-09-11

Changed

  • 将 NVIDIA 驱动程序从 450.51.05 版本更新到 450.51.06

  • 添加了 NVIDIA 结构管理器 450.51.06 版本

  • 已将 EFA 升级到 1.9.4

版本 28.0

发布日期:2020-08-19

Changed

  • 添加了 CUDA 11.0 堆栈 NCCL 2.7.6 和 cudnn 8.0.2.39

版本 27.0

发布日期:2020-08-07

Changed

  • 已将 EFA 从版本 1.7.1 升级到 1.9.3,网址为/opt/amazon/efa

  • 在 '/ usr/local/mpi’. Open MPI at ‘/opt/amazon/openmpi/bin/mpirun '中将 Open MPI 从 4.0.3 版本升级到 4.0.4 版本仍处于 4.0.3 版本

  • 将 NVIDIA 驱动程序从 440.33.01 更新到 450.51.05

  • 在 0.2 中将 NCCL 版本从 2.6.4 升级到 2.7.6 CUDA1

版本 26.0

发布日期:2020-08-03

Changed

  • 已将 AWS OFI NCCL 升级到最新版本,详情请见此处

  • Cuda 8.0/9.0/9.2 已从 AMI 中删除

Fixed

  • 修复了无法打开共享目标文件:libopencv_dnn.so.4.2 的错误。

版本 25.0

发布日期:2020-07-19

Changed

  • EFA 版本已更新至 1.7.1 以支持 NCCL 2.6.4

  • CUDA 10.2 的 NCCL 版本更新为 2.6.4

  • awscli 版本从 1.16.76 更新到 1.18.80

  • boto3 版本从 1.9.72 更新到 1.14.3

版本 24.1

发布日期:2020-06-14

Changed

  • Docker 版本已更新至 19.03.6

版本 24.0

发布日期:2020-05-20

Changed

  • Docker 版本已更新至 19.03.6

版本 23.0

发布日期:2020-04-29

Changed

  • 升级的 python 包版本

版本 22.0

发布日期:2020-03-04

Changed

  • 添加了 CUDA 10.2 堆栈

  • 更新了 cudnn 和 NCCL 版本的 CUDA 10.0 和 10.1