AWS 深度学习 AMI(亚马逊 Linux 2) - AWS Deep Learning AMIs

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS 深度学习 AMI(亚马逊 Linux 2)

提示

鼓励使用单一框架(例如 PyTorch 或 TensorFlow 者)的客户使用此处 DLAMIs 提到的单一框架

如需入门帮助,请参阅DLAMI 入门

AMI 名称格式

  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 $ {XX.X}

  • 深度学习 OSS Nvidia Driver AMI(亚马逊 Linux 2)版本 $ {XX.X}

支持的 EC2 实例

  • 请参阅 DLAMI 的重要更改

  • 使用 OSS 进行深度学习 Nvidia Driver 支持 g4dn、G5、G6、Gr6、G6e、p4d、p4de、P4de、P5

  • 使用专有 Nvidia 驱动程序进行深度学习支持 G3(不支持 G3.16x)、P3、p3dn

AMI 包括以下内容:

  • 支持的 AWS 服务:Amazon EC2

  • 操作系统:亚马逊 Linux 2

  • 计算架构:x86

  • Conda 环境框架和 python 版本:

    • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2):

      • python3:Python 3.10

      • tensorflow2_p310:2.16,Python 3.10 TensorFlow

      • pytorch_p310:2.2,Python 3.10 PyTorch

    • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2):

      • python3:Python 3.10

      • tensorflow2_p310:2.16,Python 3.10 TensorFlow

      • pytorch_p310:2.2,Python 3.10 PyTorch

  • 英伟达驱动程序

    • OSS Nvidia 驱动程序:550.163.01

    • Nvidia 专有驱动程序:550.163.01

  • NVIDIA CUDA12 .1-12 .4 堆栈:

    • CUDA、NCCL 和 cudDN 安装路径:/-xx.x/ usr/local/cuda

    • 默认 CUDA:12.1

      • 路径/ usr/local/cuda 指向 CUDA12 .1

      • 在环境变量下方更新:

        • LD_LIBRARY_PATH 要有/usr/local/cuda-12.1/lib:/usr/local/cuda-12.1/lib64:/usr/local/cuda-12.1:/usr/local/cuda-12.1/targets/x86_64-linux/lib

        • 拥有路径/usr/local/cuda-12.1/bin/:/usr/local/cuda-11.8/include/

      • 对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。

    • 为 CUDA 12.1-12.4 编译的 NCCL 版本:2.22.3

    • NCCL 测试地点:

      • all_reduce、all_gather 和 reduce_scatter:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

      • 要运行 NCCL 测试,LD_LIBRARY_PATH 需要通过以下更新。

        • 已 PATHs 在 LD_LIBRARY_PATH 中添加了常见内容:

          • /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib

        • 对于任何不同的 CUDA 版本,请相应地更新 LD_LIBRARY_PATH。

  • EFA 安装程序:1.38.0

  • GDRCopy: 2.4

  • AWS OFI NCC L:1.13.2

    • 系统位置:/usr/local/cuda-xx.x/efa

    • 这是为了运行位于 /-cuda-xx.x.x/ 的 NCCL 测试而添加的 usr/local/cuda-xx.x/efa/test

    • 此外, PyTorch 软件包还附带动态链接的 AWS OFI NCCL 插件作为 conda 软件 aws-ofi-nccl-dlc包, PyTorch 并将使用该软件包代替系统 OFI NCCL。 AWS

  • NCCL 测试地点:/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test

  • AWS CLI v2 位于/usr/local/bin/aws2 和 AWS CLI v1 位于/usr/local/bin/aws

  • EBS 卷类型:gp3

  • 使用 SSM 参数查询 AMI-ID(示例区域为 us-east-1):

    • OSS 英伟达驱动程序:

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-oss-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
    • 专有的英伟达驱动程序:

      aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/multi-framework-proprietary-nvidia-driver-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
  • 使用以下方式查询 AMI-ID AWSCLI (示例区域为 us-east-1):

    • OSS 英伟达驱动程序:

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
    • 专有的英伟达驱动程序:

      aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI (Amazon Linux 2) Version ??.?' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

版权声明

EFA 更新从 1.37 到 1.38(2025-02-05 发布)

  • EFA 现在捆绑了 AWS OFI NCCL 插件,该插件现在可以在 /-ofi-nccl/ 中找到。opt/amazon/ofi-nccl rather than the original /opt/aws如果要更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。

Neuron conda 环境移除

  • 2024 年 7 月 18 日之后 AMIs 发布的深度学习专有 Nvidia 驱动程序将在不带神经元 conda 环境的情况下出售,用于和。 PyTorch TensorFlow请改用 DLAMI 发行 DLAMIs 说明中的神经元来利用神经元环境。

移除审计 Package

  • 在2024年3月26日(2024-03-26)至2024年4月12日(2024-04-12)之间发布的DLAMI是在没有审计包的情况下发货的。如果您需要此特定程序包来满足日志和监控需求,请将您的工作流程迁移到最新的 DLAMI,以便使用安装了审核包的工作流程。

Horovod

  • Horovod 已从 DLAMI 上当前 pytorch_p310 和 tensorflow2_p310 conda 环境中移除。客户将能够按照horovod 指南安装horovod 库,并将它们安装在他们的分布式训练作业 DLAMIs 上。

发布日期:2025-04-22

AMI 的名字
  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 81.2

  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 81.2

已更新

  • 将 Nvidia 驱动程序从 550.144.03 版升级到 550.163.01 版,以解决 2025 年 4 月 NVIDIA G PU CVEs 显示驱动程序安全公告中提到的问题

发布日期:2025-02-17

AMI 的名字
  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 80.6

  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 80.4

已更新

已删除

发布日期:2025-02-05

AMI 的名字
  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 80.2

  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 80.4

已更新

  • 将 EFA 版本从 1.37.0 升级到 1.38.0

    • EFA 现在捆绑了 AWS OFI NCCL 插件,该插件现在可以在 /-ofi-nccl/ 中找到。opt/amazon/ofi-nccl rather than the original /opt/aws如果要更新 LD_LIBRARY_PATH 变量,请确保正确修改 OFI NCCL 位置。

发布日期:2025-01-15

AMI 的名字
  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 80.3

  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 80.1

已更新

  • 将 Nvidia 驱动程序从 550.127.05 版升级到 550.144.03 版,以解决 2025 年 1 月 NVIDIA G PU CVEs 显示驱动程序安全公告中提到的问题

发布日期:2024-12-09

AMI 的名字
  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 80.1

  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 79.9

已更新

  • 将 Nvidia 容器工具包从 1.17.0 版升级到 1.17.3 版

发布日期:2024-11-11

AMI 的名字
  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 79.9

  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 79.7

已更新

发布日期:2024-10-22

AMI 的名字
  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 79.6

  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 79.6

已更新

发布日期:2024-10-03

AMI 的名字
  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 79.3

  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 79.3

已更新

发布日期:2024-07-18

AMI 的名字
  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 78.6

  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 78.7

已更新

  • 从深度学习专有 Nvidia 驱动程序 AMI 中移除了 aws_neuron_pytorch_p38 和 aws_neuron_tensorflow_p38 conda 环境。

  • 已从深度学习专有 Nvidia 驱动程序 AMI 中移除对 Inf1 实例系列的支持。

发布日期:2024-06-06

AMI 的名字
  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 78.5

  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 78.5

已更新

  • 将 Nvidia 驱动程序版本从 535.161.08 更新到 535.183.01

发布日期:2024-05-17

AMI 的名字
  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 78.1

  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 78.1

已更新

发布日期:2024-05-07

AMI 的名字
  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 78.0

  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 78.0

已更新

新增了

  • 添加了 CUDA12 .3 堆栈,包含 CUDA12 .3、NCCL 2.21.5、cudnn 8.9.7

已删除

发布日期:2024-04-04

AMI 的名字
  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 77.0

  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 77.0

已更新

  • PyTorch 在 pytorch_p310 环境中,版本从 2.1 更新到 2.2。

  • 对于 OSS Nvidia 驱动程序 DLAMIs,添加了 G6 和 Gr6 EC2 实例支持。有关更多信息,请参阅EC2 实例选择页面。

发布日期:2024-03-29

AMI 的名字
  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 76.8

  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 76.9

已更新

  • 在专有和 OSS Nvidia 驱动程序中将 Nvidia 驱动程序从 535.104.12 更新为 535.161.08。 DLAMIs

  • 每个 DLAMI 支持的新实例如下:

    • 使用专有 Nvidia 驱动程序进行深度学习支持 G3(不支持 G3.16x)、P3、p3dn、Inf1

    • 使用 OSS 进行深度学习 Nvidia Driver 支持 g4dn、G5、p4d、p4de。

已删除

  • 从 Nvidia 专有驱动程序 DLAMI 中移除了 G4dn、G5、G3.16x EC2 实例支持。

版本 76.8

发布日期:2024-03- 20

AMI 的名字
  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 76.8

新增了

  • 在 AMI 中添加了 awscliv2 作为/ usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/aws 的专有 Nvidia 驱动程序 AMI

版本 76.7

发布日期:2024-03- 20

AMI 的名字
  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 76.7

新增了

  • 在 OSS Nvidi a Driver AMI usr/local/bin/aws2, alongside awscliv1 as /usr/local/bin/aws 上将 awscliv 2 添加为/

  • 更新了 OSS Nvidia 驱动程序 DLAMI,支持 G4dN 和 G5,基于它目前的支持如下所示:

    • 深度学习基础专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)支持 P3、p3dn、G3、G5、g4dn。

    • 深度学习基础 OSS Nvidia Driver AMI(亚马逊 Linux 2)支持 g4dn、G5、P4、P5。

  • 建议将 OSS Nvidia 驱动程序 DLAMIs 用于 G4dN、G5、P4、P5。

版本 76.3

发布日期:2024-02-14

已更新

  • TensorFlow 从 2.13.0 更新到 2.15.0

  • 将 EFA 从 1.29.0 更新到 1.30.0

  • 将 AWS-OFI-NCCL 从 1.7.3-aws 更新到 1.7.4-aws

  • 在深度学习专有的 Nvidia 驱动程序 AMI 上将 Nvidia 驱动程序更新至 535.104.12

  • 在深度学习 OSS 上将 Nvidia 驱动程序更新到 535.154.05 Nvidia 驱动程序 AMI

版本 76.2

发布日期:2024-02-02

AMI 的名字
  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 76.2

  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 76.4

安全性

版本 76.1

发布日期:2023-12-27

已更新

  • PyTorch 从 2.0.1 更新到 2.1.0

版本 75.1

发布日期:2023-11-17

请参阅 DLAMI 的重要更改

AMI 的名字
  • 深度学习 OSS Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 75.1

  • 深度学习专有 Nvidia 驱动程序 AMI(亚马逊 Linux 2)版本 75.1

新增了

  • AWS 深度学习 AMI (DLAMI) 分为两个独立的组:

    • 使用 Nvidia 专有驱动程序(支持 P3、p3dn、G3、G5、g4dN)的 DLAMI。

    • 使用 Nvidia OSS 驱动程序启用 EFA(支持 P4、P5)的 DLAMI。

  • 有关DLAMI拆分的更多信息,请参阅公告

  • AWS 上面的 cli 查询位于发行说明中 bullet point Query AMI-ID 下方 AWSCLI (示例区域为 us-east- 1)

已更新

  • EFA 从 1.26.1 更新到 1.29.0

  • GDRCopy 已从 2.3 更新到 2.4

版本 74.4

发布日期:2023-10-27

已更新

新增了

版本 74.0

发布日期:2023-07-19

已更新

  • TensorFlow 从 2.12 更新到 2.13

    • 在此版本中,Horovod 已从 conda 环境中移除。有关安装 horovod 的详细信息,请参阅通知

版本 73.1

发布日期:2023-06-12

已更新

  • PyTorch 从 2.0.0 更新到 2.0.1