AWS 深度学习基础 GPU AMI(Ubuntu 20.04) - AWS Deep Learning AMIs

AWS 深度学习基础 GPU AMI(Ubuntu 20.04)

终止支持通知

有关入门帮助,请参阅 DLAMI 入门

AMI 名称格式

  • 深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)${年-月-日}

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)${年-月-日}

支持的 EC2 实例

  • 请参阅 DLAMI 的重要更改

  • 采用 OSS Nvidia 驱动程序的深度学习支持 G4dn、G5、G6、Gr6、G6e、P4d、P4de、P5、P5e、P5en

  • 采用专有 Nvidia 驱动程序的深度学习支持 G3(不支持 G3.16x)、P3、P3dn

该 AMI 包含以下内容:

  • 支持的 AWS 服务:Amazon EC2

  • 操作系统:Ubuntu 20.04

  • 计算架构:x86

  • 已为以下软件包安装了最新的可用版本:

    • Linux 内核 5.15

    • FSx Lustre

    • Docker /

    • AWS CLI v2(位置 /usr/local/bin/aws2)和 AWS CLI v1(位置 /usr/bin/aws)

    • NVIDIA DCGM

    • Nvidia Container Toolkit

      • 版本命令:nvidia-container-cli -V

    • Nvidia-docker2

      • 版本命令:nvidia-docker 版本

  • NVIDIA 驱动程序

    • OSS Nvidia 驱动程序:550.163.01

    • 专有 Nvidia 驱动程序:550.163.01

  • NVIDIA CUDA 11.7、12.1-12.4 堆栈

    • CUDA、NCCL 和 cuDDN 安装目录:/usr/local/cuda-xx.x/

      • 示例:/usr/local/cuda-12.1/

    • 已编译的 NCCL 版本:2.22.3+CUDA12.4

    • 默认 CUDA:12.1

      • PATH /usr/local/cuda 指向 CUDA 12.1

      • 更新以下环境变量:

        • LD_LIBRARY_PATH 更新为包含 /usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • PATH 更新为包含 /usr/local/cuda-12.1/bin/:/usr/local/cuda-12.1/include/

        • 对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。

    • NCCL 测试位置:

      • all_reduce、all_gather 和 reduce_scatter:/usr/local/cuda-xx.x/efa/test-cuda-xx.x/

      • 要运行 NCCL 测试,需要传递包含以下更新的 LD_LIBRARY_PATH。

        • 常用 PATH 已经被添加到 LD_LIBRARY_PATH:

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • 对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。

  • EFA 安装程序:1.39.0

  • Nvidia GDRCopy:2.4

  • AWS OFI NCCL 插件:作为 EFA Installer-aws 的一部分安装

    • AWS OFI NCCL 现在通过一次构建支持多个 NCCL 版本

    • 安装路径:/opt/aws-ofi-nccl/。路径 /opt/aws-ofi-nccl/lib 添加到 LD_LIBRARY_PATH。

    • 用于 ring、message_transfer 的测试路径:/opt/aws-ofi-nccl/tests

  • EBS 卷类型:gp3

  • Python:/usr/bin/python3.9

  • NVMe 实例存储位置(在支持的 EC2 实例上):/opt/dlami/nvme

  • 使用 SSM 参数查询 AMI-ID(示例区域为 us-east-1):

    • OSS Nvidia 驱动程序:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-oss-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
    • 专有 Nvidia 驱动程序:

      aws ssm get-parameter --region us-east-1 \ --name /aws/service/deeplearning/ami/x86_64/base-proprietary-nvidia-driver-gpu-ubuntu-20.04/latest/ami-id \ --query "Parameter.Value" \ --output text
  • 使用 AWSCLI 查询 AMI-ID(示例区域为 us-east-1):

    • OSS Nvidia 驱动程序:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text
    • 专有 Nvidia 驱动程序:

      aws ec2 describe-images --region us-east-1 \ --owners amazon \ --filters 'Name=name,Values=Deep Learning Base Proprietary Nvidia Driver GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' \ --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \ --output text

声明

NVIDIA Container Toolkit 1.17.4

在 Container Toolkit 版本 1.17.4 中,现在禁用挂载 CUDA 兼容性库。为了确保与容器工作流中的多个 CUDA 版本兼容,请确保更新 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如如果您使用 CUDA 兼容层教程中所示。

EFA 版本从 1.37 更新为 1.38(2025-02-04 发布)

EFA 现在捆绑了 AWS OFI NCCL 插件,现在可以在 /opt/amazon/ofi-nccl 而非原来的 /opt/aws-ofi-nccl/ 中找到该插件。如果更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。

支持策略

此 AMI 的组件(如 CUDA 版本)可能在未来版本中基于框架支持策略或为了优化深度学习容器性能、减小 AMI 大小等原因而被移除或更改,恕不另行通知。如果 CUDA 版本没有被任何受支持的框架版本所使用,则我们会将其从 AMI 中移除。

使用多个网卡的 EC2 实例
  • 许多支持 EFA 的实例类型也有多个网卡。

  • DeviceIndex 对于每个网卡都是唯一的,其值必须是一个非负整数,且小于每个网卡支持的 ENI 数量上限。在 P5 上,每个网卡支持 2 个 ENI,这意味着 DeviceIndex 的唯一有效值是 0 或 1。

    • 对于主网络接口(网卡索引 0、设备索引 0),创建一个 EFA(兼具 ENA 功能的 EFA)接口。您不能使用仅限 EFA 的网络接口作为主网络接口。

    • 对于每个附加的网络接口,请使用下一个未使用的网卡索引、设备索引 1 以及 EFA(兼具 ENA 功能的 EFA)或仅 EFA 的网络接口,具体取决于您的使用案例,例如 ENA 带宽要求或 IP 地址空间。有关使用案例示例,请参阅 P5 实例的 EFA 配置。

    • 有关更多信息,请参阅此处的《EFA 指南》。

P5/P5e 实例
  • P5 和 P5e 实例包含 32 个网络接口卡,可以使用以下 AWS CLI 命令来启动:

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
P5en 实例
  • P5en 包含 16 个网络接口卡,可以使用以下 AWS CLI 命令来启动:

aws ec2 run-instances --region $REGION \ --instance-type $INSTANCETYPE \ --image-id $AMI --key-name $KEYNAME \ --iam-instance-profile "Name=dlami-builder" \ --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \ --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \ ... "NetworkCardIndex=15,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
内核
  • 使用以下命令固定内核版本:

    echo linux-aws hold | sudo dpkg —set-selections echo linux-headers-aws hold | sudo dpkg —set-selections echo linux-image-aws hold | sudo dpkg —set-selections
  • 我们建议用户避免更新其内核版本(除非为了安全修补原因),以确保与已安装的驱动程序和软件包版本兼容。如果用户仍希望更新,则可以运行以下命令来取消固定内核版本:

    echo linux-aws install | sudo dpkg -set-selections echo linux-headers-aws install | sudo dpkg -set-selections echo linux-image-aws install | sudo dpkg -set-selections
  • 对于每个新版本的 DLAMI,使用最新可用的兼容内核。

发布日期:2025-04-24

AMI 名称
  • 深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20250424

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20250424

更新

发布日期:2025-02-17

AMI 名称
  • 深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20250214

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20250214

更新
删除

发布日期:2025-02-04

AMI 名称
  • 深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20250204

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20250204

更新
  • EFA 版本从 1.37.0 升级到 1.38.0

    • EFA 现在捆绑了 AWS OFI NCCL 插件,现在可以在 /opt/amazon/ofi-nccl 而非原来的 /opt/aws-ofi-nccl/ 中找到该插件。如果更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。

删除

发布日期:2025-01-17

AMI 名称
  • 深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20250117

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20250117

更新

发布日期:2024-12-09

AMI 名称
  • 深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20241206

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20241206

更新
  • Nvidia Container Toolkit 版本从 1.17.0 升级到 1.17.3

发布日期:2024-11-22

AMI 名称:深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20241122

增加
  • 增加了对 P5en EC2 实例的支持。

更新
  • EFA 安装程序版本从 1.35.0 升级到 1.37.0

  • AWS OFI NCCL 插件版本从 1.12.1-aws 升级到 1.13.0-aws

发布日期:2024-10-26

AMI 名称
  • 深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20241025

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20241025

更新

发布日期:2024-10-03

AMI 名称:深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240927

更新
  • Nvidia Container Toolkit 版本从 1.16.1 升级到 1.16.2

发布日期:2024-08-27

AMI 名称:深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240827

更新
  • Nvidia 驱动程序和 Fabric Manager 版本从 535.183.01 升级到 550.90.07

  • EFA 版本从 1.32.0 升级到 1.34.0

  • 针对所有 CUDA 版本将 NCCL 升级到最新版本 2.22.3

    • CUDA 11.7 从 NCCL 版本 2.16.2(基于 CUDA11.7 构建)升级

    • CUDA 12.1、12.2 从 NCCL 版本 2.18.5(基于 CUDA12.2 构建)升级

    • CUDA 12.3 从 NCCL 版本 2.21.5(基于 CUDA12.4 构建)升级

增加
  • 在 /usr/local/cuda-12.4 目录中增加了 CUDA Toolkit 版本 12.4

  • 增加了对 P5e EC2 实例的支持。

删除
  • 移除了 /usr/local/cuda-11.8 目录中存在的 CUDA Toolkit 版本 11.8 堆栈

发布日期:2024-08-19

AMI 名称:深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240816

增加

发布日期:2024-06-06

AMI 名称
  • 深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240606

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240606

更新
  • Nvidia 驱动程序版本从 535.183.01 更新为 535.161.08

发布日期:2024-05-15

AMI 名称
  • 深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240515

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240515

增加
  • 在 /usr/local/cuda-11.7 目录下重新增加了 CUDA11.7 堆栈,其中包含 CUDA11.7、NCCL 2.16.2 和 CuDNN 8.7.0,这样做的原因是 PyTorch 1.13 支持 CUDA11.7

发布日期:2024-05-02

AMI 名称
  • 深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240502

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240502

更新
  • EFA 版本从 1.30 更新为 1.32

  • AWS OFI NCCL 插件版本从 1.7.4 更新到 1.9.1

  • Nvidia Container Toolkit 版本从 1.13.5 更新为 1.15.0

    • 版本 1.15.0 不包括 nvidia-container-runtime 和 nvidia-docker2 软件包。建议按照 Nvidia Container Toolkit 文档直接使用 nvidia-container-toolkit 软件包。

增加
  • 增加了包含 CUDA12.3、NCCL 2.21.5、CuDNN 8.9.7 的 CUDA12.3 堆栈

删除
  • 移除了存在于 /usr/local/cuda-11.7 目录的 CUDA11.7 堆栈以及存在于 /usr/local/cuda-12.0 目录的 CUDA12.0 堆栈

  • Nvidia Container Toolkit 版本从 1.13.5 更新为 1.15.0 时,移除了 nvidia-docker2 软件包及其命令 nvidia-docker,因此不再包括 nvidia-container-runtime 和 nvidia-docker2 软件包。

发布日期:2024-04-04

AMI 名称:深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240404

增加
  • 对于 OSS Nvidia 驱动程序 DLAMI,增加了 G6 和 Gr6 EC2 实例支持。有关更多信息,请参阅推荐的 GPU 实例

发布日期:2024-03-29

AMI 名称
  • 深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240326

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240326

更新
  • 在专有和 OSS Nvidia 驱动程序 DLAMI 中,Nvidia 驱动程序版本从 535.104.12 更新为 535.161.08。

  • 从专有 Nvidia 驱动程序 DLAMI 中移除了 G4dn、G5 EC2 实例支持。

  • 每个 DLAMI 支持的新实例如下:

    • 采用专有 Nvidia 驱动程序的深度学习支持 G3(不支持 G3.16x)、P3、P3dn

    • 采用 OSS Nvidia 驱动程序的深度学习支持 G4dn、G5、P4d、P4de、P5。

发布日期:2024-03-20

AMI 名称
  • 深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240318

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240318

增加
  • 在专有和 OSS Nvidia 驱动程序 AMI 上,增加 awscliv2 为 /usr/local/bin/aws2,同时增加 awscliv1 为 /usr/bin/aws

发布日期:2024-03-14

AMI 名称:深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240314

更新
  • 更新了 OSS Nvidia 驱动程序 DLAMI,支持 G4dn 和 G5,更新后的当前支持如下:

    • 深度学习基础专有 Nvidia 驱动程序 AMI(Ubuntu 20.04)支持 P3、P3dn、G3、G5、G4dn。

    • 深度学习基础 OSS Nvidia 驱动程序 AMI(Ubuntu 20.04)支持 G5、G4dn、P4、P5。

  • 对于 G5、G4dn、P4、P5,建议使用 OSS Nvidia 驱动程序 DLAMI。

发布日期:2024-02-12

AMI 名称
  • 深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240208

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240208

更新
  • AWS OFI NCCL 插件版本从 1.7.3 更新为 1.7.4

发布日期:2024-02-01

AMI 名称
  • 深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240201

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20240201

安全性

发布日期:2023-12-04

AMI 名称
  • 深度学习基础 OSS Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20231204

  • 深度学习基础专有 Nvidia 驱动程序 GPU AMI(Ubuntu 20.04)20231204

增加
  • AWS Deep Learning AMI(DLAMI)分为两个独立组:

    • 使用 Nvidia 专有驱动程序的 DLAMI(以支持 P3、P3dn、G3、G5、G4dn)。

    • 使用 Nvidia OSS 驱动程序以启用 EFA 的 DLAMI(以支持 P4、P5)。

  • 有关 DLAMI 拆分的更多信息,请参阅 DLAMI 的重要更改

  • 用于查询上述 DLAMI 的 AWS CLI 查询包含在要点使用 AWSCLI 查询 AMI-ID(示例区域为 us-east-1)

更新
  • EFA 版本从 1.26.1 更新为 1.29.0

  • GDRCopy 版本从 2.3 更新为 2.4

发布日期:2023-10-18

AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20231018

更新
  • AWS OFI NCCL 插件版本从 1.7.2 更新为 1.7.3

  • CUDA 12.0-12.1 目录中的 NCCL 版本更新为 2.18.5 以与 CUDA 12.2 环境保持一致

  • CUDA12.1 更新为默认 CUDA 版本

    • LD_LIBRARY_PATH 更新为包含/usr/local/cuda-12.1/targets/x86_64-linux/lib/:/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1,PATH 更新为包含 /usr/local/cuda-12.1/bin/

    • 对于想要切换到任何不同 CUDA 版本的客户,请相应地定义 LD_LIBRARY_PATH 和 PATH 变量。

发布日期:2023-10-02

AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20231002

更新
  • NVIDIA 驱动程序版本从 535.54.03 更新为 535.104.12

    • 这个最新的驱动程序修复了在 535.54.03 版本中发现的 NVML ABI 中断性变更,以及在 535.86.10 版本中发现的影响 P5 实例上 CUDA Toolkit 的驱动程序回归问题。有关修复的详细信息,请参阅以下 NVIDIA 发布说明:

    • 有关修复的详细信息,请参阅以下 NVIDIA 发布说明:

      • 4235941 - NVML ABI 中断性变更修复

      • 4228552 - CUDA Toolkit 错误修复

  • 将 CUDA 12.2 目录下的 NCCL 版本更新为 2.18.5

  • EFA 版本从 1.24.1 更新为最新的 1.26.1

增加
  • 在 /usr/local/cuda-12.2 中增加了 CUDA12.2

删除
  • 移除了对 CUDA 11.5 和 CUDA 11.6 的支持

发布日期:2023-09-26

AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20230926

增加
  • 增加了 net.naming-scheme 变更,以修复 P5 上出现的不可预测的网络接口命名问题(链接)。此变更通过在 /etc/default/grub 文件中的 linux 启动参数里设置 net.naming-scheme=v247 来实现

发布日期:2023-08-30

AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20230830

更新
  • aws-ofi-nccl 插件版本从 v1.7.1 更新为 v1.7.2

发布日期:2023-08-11

AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20230811

增加
  • 此 AMI 现在支持 P5 和所有以前支持的 EC2 实例上的多节点训练功能。

  • 对于 P5 EC2 实例,建议使用 NCCL 2.18,该版本已添加到 CUDA12.0 和 CUDA12.1 中。

删除
  • 移除了对 CUDA11.3 和 CUDA11.4 的支持。

发布日期:2023-08-04

AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20230804

更新
  • AWS OFI NCCL 插件版本更新为 v1.7.1

  • 将 CUDA11.8 设为默认值,因为 PyTorch 2.0 支持 11.8,对于 P5 EC2 实例,建议使用 >=CUDA11.8

    • LD_LIBRARY_PATH 更新为包含 /usr/local/cuda-11.8/targets/x86_64-linux/lib/:/usr/local/cuda-11.8/lib:/usr/local/cuda-11.8/lib64:/usr/local/cuda-11.8,PATH 更新为包含 /usr/local/cuda-11.8/bin/

    • 对于任何不同的 cuda 版本,请相应地定义 LD_LIBRARY_PATH。

  • 将 CUDA 12.0、12.1 目录下的 NCCL 版本更新为 2.18.3

修改
  • 修复了之前发布日期 2023-07-19 中提到的 Nvidia Fabric Manager(FM)软件包加载问题。

发布日期:2023-07-19

AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20230719

更新
  • EFA 版本从 1.22.1 更新为 1.24.1

  • NVIDIA 驱动程序版本从 525.85.12 更新为 535.54.03

增加
  • 通过将 max c-state 设置为 C1,增加了 c-state 变更以禁用处理器的空闲状态。此变更是通过在 /etc/default/grub 文件中的 linux 启动参数里设置 `intel_idle.max_cstate=1 processor.max_cstate=1` 实现的

  • AWS EC2 P5 实例支持:

    • 为使用单节点/实例的工作流程增加了 P5 EC2 实例支持。在即将发布的版本中,将增加使用 EFA(Elastic Fabric Adapter)和 AWS OFI NCCL 插件的多节点支持(例如用于多节点训练)。

    • 请使用 CUDA>=11.8 以获得最佳性能。

    • 已知问题:Nvidia Fabric Manager(FM)软件包在 P5 上加载时间较长,客户在启动 P5 实例后需要等待 2-3 分钟才能加载 FM。要检查 FM 是否已启动,请运行命令 sudo systemctl is-active nvidia-fabricmanager,在开始任何工作流之前,该命令应该返回 active 状态。将在未来的版本中修复该问题。

发布日期:2023-05-19

AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20230519

更新
  • EFA 更新到最新版本 1.22.1

  • 将 CUDA 12.1 环境下的 NCCL 版本更新为 2.17.1

增加
  • 在 /usr/local/cuda-12.1 中增加了 CUDA12.1

  • 通过 datacenter-gpu-manager 包增加了对 NVIDIA Data Center GPU Monitor(DCGM)的支持

    • 您可以通过以下查询来查看此服务的状态:sudo systemctl status nvidia-dcgm

  • 临时性 NVMe 实例存储现在会自动挂载到支持的 EC2 实例上,可以通过 /opt/dlami/nvme/ 文件夹访问存储。您可以通过下列方式来检查或修改此服务:

    • 检查 NVMe 服务的状态:sudo systemctl status dlami-nvme

    • 访问或修改服务:/opt/aws/dlami/bin/nvme_ephemeral_drives.sh

  • NVMe 卷为需要 IOPS 性能的高吞吐量工作流程提供了最快、最高效的存储解决方案。临时性 NVMe 实例存储的费用已包含在实例的费用中,因此使用此服务不会产生任何额外成本。

  • NVMe 实例存储只会被挂载到支持它们的 EC2 实例上。有关哪些 EC2 实例支持 NVMe 实例存储,请参阅可用实例存储卷并验证是否支持 NVMe。

  • 为了提高磁盘性能并减少首次写入的损失,您可以初始化实例存储(注意,此过程可能需要几个小时,具体取决于 EC2 实例类型)- 在 EC2 实例上初始化实例存储卷

  • 注意:NVMe 实例存储挂载在实例上,不像 EBS 那样连接到网络。在您重启或停止实例时,这些 NVMe 卷上的数据可能会丢失。

发布日期:2023-04-17

AMI 名称:深度学习基础 GPU AMI(Ubuntu 20.04)20230414

更新
  • DLAMI 名称从“AWS 深度学习基础 AMI GPU CUDA 11(Ubuntu 20.04)${年-月-日}”更新为“深度学习基础 GPU AMI(Ubuntu 20.04)${年-月-日}”

    • 请注意,自本次发布起,我们将在一个月内继续使用旧的 AMI 名称来支持最新的 DLAMI,以应对任何所需的支持。客户可以更新其操作系统包 apt-get update && apt-get upgrade 以使用安全补丁。

  • AWS OFI NCCL 插件路径从 /usr/local/cuda-xx.x/efa/ 更新为 /opt/aws-ofi-nccl/

  • 对于所有 CUDA 版本,NCCL 更新至一个由 AWS 和 NCCL 团队共同开发的 v2.16.2 的自定义 GIT 分支。它在 AWS 基础架构上的性能更优。

增加
  • 在 /usr/local/cuda-12.0 中增加了 CUDA12.0

  • 增加了 AWS FSx

  • 在 /usr/bin/python3.9 中增加了对 Python 版本 3.9 的支持

    • 请注意,此更改并不会替换默认的系统 Python,python3 仍然指向系统 Python3.8。

    • 可以使用以下命令访问 Python3.9:

      /usr/bin/python3.9 python3.9
删除
  • 从 /usr/local/cuda-11.x/ 中移除了 CUDA11.0-11.1,因为根据框架支持策略,任何受支持的框架版本均未使用它们。

发布日期:2022-05-25

AMI 名称:AWS 深度学习基础 AMI GPU CUDA 11(Ubuntu 20.04)20220523

更新
  • 此版本增加了对新 EC2 实例 p4de.24xlarge 的支持。

    • aws-efa-installer 版本更新为 1.15.2

    • aws-ofi-nccl 版本更新为 1.3.0-aws,其中包括 p4de.24xlarge 的拓扑。

发布日期:2022-03-25

AMI 名称:AWS 深度学习基础 AMI GPU CUDA 11(Ubuntu 20.04)20220325

更新
  • EFA 版本从 1.15.0 更新为 1.15.1

发布日期:2022-03-17

AMI 名称:AWS 深度学习基础 AMI GPU CUDA 11(Ubuntu 20.04)20220323

增加
  • 初始版本