SageMaker HyperPod AMI 发布了 Slurm 版 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker HyperPod AMI 发布了 Slurm 版

以下发行说明跟踪了适用于 Slurm 编排的 Amazon SageMaker HyperPod AMI 版本的最新更新。 HyperPod AMIs 它们建立在AWS深度学习基础 GPU AMI (Ubuntu 22.0 4) 之上。 HyperPod服务团队通过SageMaker HyperPod DLAMI分发软件补丁。有关适用于 Amazon EKS 编排的 HyperPod AMI 版本,请参阅SageMaker HyperPod 亚马逊 EKS 的 AMI 发布。有关 Amazon SageMaker HyperPod 功能版本的信息,请参阅亚马逊 SageMaker HyperPod 发行说明

注意

要使用最新的 DLAMI 更新现有 HyperPod 集群,请参阅。更新集群的 SageMaker HyperPod 平台软件

SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 11 月 22 日

AMI 常规更新

SageMaker HyperPod DLAMI 支持 Slurm

此版本包含以下更新:

Slurm (arm64)
  • Linux 内核版本:6.8

  • Glibc 版本:2.35

  • OpenSSL 版本:3.0.2

  • FSx Lustre Client 版本:2.15.6-1fsx21

  • 运行版本:1.3.3

  • 容器版本:containerd containerd.io v2.1.5

  • NVIDIA 驱动程序版本:580.95.05

  • CUDA 版本:12.6、12.8、12.9、13.0

  • EFA 安装程序版本:2.1.0amzn5.0

  • Python 版本:3.10.12

  • Slurm 版本:24.11.0

  • nvme-cli 版本:1.16

  • 集合版本:5.12.0。

  • lustre-client 版本:2.15.6-1fsx21

  • nvidia-imex 版本:580.95.05-1

  • 系统版本:249

  • openssh 版本:8.9

  • sudo 版本:1.9.9

  • ufw 版本:0.36.1

  • gcc 版本:11.4.0

  • cmake 版本:3.22.1

  • git 版本:2.34.1

  • 制作版本:4.3

  • cloudwatch-agent 版本:1.300062.0b1304-1

  • nfs-utils 版本:1:2.6 .1-1ubuntu1.2

  • iscsi-initiator-utils 版本:2.1.5-1ubuntu1.1

  • lvm2 版本:2.03.11

  • ec2-instance-connece-connect 版本:1.1.14-0ubuntu1.1

  • rdma-core 版本:58.amzn0-1

Slurm (x86_64)
  • Linux 内核版本:6.8

  • Glibc 版本:2.35

  • OpenSSL 版本:3.0.2

  • FSx Lustre Client 版本:2.15.6-1fsx21

  • 运行版本:1.3.3

  • 容器版本:containerd containerd.io v2.1.5

  • aws Neuronx DKMS 版本:2.24.7.0

  • NVIDIA 驱动程序版本:580.95.05

  • CUDA 版本:12.6、12.8、12.9、13.0

  • EFA 安装程序版本:2.3.1amzn1.0

  • Python 版本:3.10.12

  • Slurm 版本:24.11.0

  • nvme-cli 版本:1.16

  • stress 版本:1.0.5

  • 集合版本:5.12.0。

  • lustre-client 版本:2.15.6-1fsx21

  • 系统版本:249

  • openssh 版本:8.9

  • sudo 版本:1.9.9

  • ufw 版本:0.36.1

  • gcc 版本:11.4.0

  • cmake 版本:3.22.1

  • 制作版本:4.3

  • cloudwatch-agent 版本:1.300062.0b1304-1

  • nfs-utils 版本:1:2.6 .1-1ubuntu1.2

  • iscsi-initiator-utils 版本:2.1.5-1ubuntu1.1

  • lvm2 版本:2.03.11

  • ec2-instance-connece-connect 版本:1.1.14-0ubuntu1.1

  • rdma-core 版本:59.amzn0-1

SageMaker HyperPod 发布说明:2025 年 11 月 7 日

AMI 包括以下内容:

  • 支持AWS 服务:亚马逊 EC2

  • 操作系统:Ubuntu 22.04

  • 计算架构: ARM64

  • 更新的软件包:NVIDIA 驱动程序:580.95.05

  • CUDA 版本:cuda-12.6、cuda-12.8、cuda-12.9、cuda-13.0

  • 安全补丁:Runc 安全补丁

SageMaker HyperPod 发布说明:2025 年 9 月 29 日

AMI 包括以下内容:

  • 支持AWS 服务:亚马逊 EC2

  • 操作系统:Ubuntu 22.04

  • 计算架构: ARM64

  • 更新的软件包:NVIDIA 驱动程序:570.172.08

  • 安全修复

SageMaker HyperPod 发布说明:2025 年 8 月 12 日

AMI 包括以下内容:

  • 支持AWS 服务:亚马逊 EC2

  • 操作系统:Ubuntu 22.04

  • 计算架构: ARM64

  • 已为以下软件包安装了最新的可用版本:

    • Linux 内核:6.8

    • FSx Lustre

    • Docker

    • AWS CLIv2 在 /usr/bin/aws

    • NVIDIA DCGM

    • Nvidia Container Toolkit:

      • 版本命令:nvidia-container-cli -V

    • Nvidia-docker2:

      • 版本命令:nvidia-docker version

    • nvidia-imex:v570.172.08-1

  • NVIDIA 驱动程序:570.158.01

  • NVIDIA CUDA 12.4、12.5、12.6、12.8 堆栈:

    • CUDA、NCCL 和 cudDN 安装目录:/usr/local/cuda-xx.x/

      • 示例:/usr/local/cuda-12.8//usr/local/cuda-12.8/

    • 已编译的 NCCL 版本:

      • 对于 12.4 的 CUDA 目录,编译了 NCCL 版本 2.22.3+ .4 CUDA12

      • 对于 12.5 的 CUDA 目录,编译了 NCCL 版本 2.22.3+ .5 CUDA12

      • 对于 12.6 的 CUDA 目录,编译了 NCCL 版本 2.24.3+ .6 CUDA12

      • 对于 12.8 的 CUDA 目录,编译了 NCCL 版本 2.27.5+ .8 CUDA12

    • 默认 CUDA:12.8

      • PATH /usr/local/cuda 指向 CUDA 12.8

      • 更新以下环境变量:

        • LD_LIBRARY_PATH拥有 /usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64

        • PATH拥有 /usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/

        • 对于任何不同的 CUDA 版本,请LD_LIBRARY_PATH相应更新。

  • EFA 安装程序:1.42.0

  • 英伟达 GDRCopy:2.5.1

  • AWSOFI NCCL 插件附带 EFA 安装程序

    • 路径/opt/amazon/ofi-nccl/lib/aarch64-linux-gnu/opt/amazon/ofi-nccl/efa已添加到LD_LIBRARY_PATH

  • AWS CLIv2 位于/usr/local/bin/aws2,AWS CLIv1 位于 /usr/bin/aws

  • EBS 卷类型:gp3

  • Python:/usr/bin/python3.10

SageMaker HyperPod 发布说明:2025 年 5 月 27 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新功能和改进

  • 已使用以下关键组件将基础 AMI 更新至 Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523

    • NVIDIA 驱动程序:570.133.20

    • CUDA:12.8(默认值),支持 CUDA 12.4-12.6

    • NCCL 版本:2.26.5

    • EFA 安装程序:1.40.0

    • AWSOFI NCCL:1.14.2-aws

  • 更新了 Neuron SDK 软件包:

    • aws-neuronx-collectives: 2.25.65.0-9858ac9a1(来自 2.24.59.0-838c7fc8b)

    • aws-neuronx-dkms: 2.21.37.0(从 2.20.28.0 开始)

    • aws-neuronx-runtime-lib: 2.25.57.0-166c7a468(来自 2.24.53.0-f239092cc)

    • aws-neuronx-tools: 2.23.9.0(从 2.22.61.0 开始)

重要提示

  • NVIDIA 容器工具包 1.17.4 现已禁止挂载 CUDA 兼容性库。

  • 已将 EFA 配置从 1.37 更新至 1.38,EFA 现在包含 AWS OFI NCCL 插件,该插件位于 /opt/amazon/ofi-nccl 目录而非原始 /opt/aws-ofi-nccl/ 路径中。(发布日期:2025 年 2 月 18 日)

  • 为确保稳定性和驱动程序兼容性,已固定内核版本。

SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 5 月 13 日

亚马逊 SageMaker HyperPod 发布了更新后的 AMI,支持适用于 Slurm 集群的 Ubuntu 22.04 LTS。 AWS定期更新 AMIs 以确保您可以访问最新的软件堆栈。通过升级到最新的 AMI,可通过全面的软件包更新增强安全性,提升工作负载的性能与稳定性,并实现与新实例类型及最新内核功能的兼容。

重要

从 Ubuntu 20.04 LTS 更新至 Ubuntu 22.04 LTS 会引入重大变更,这些变更可能会影响与为 Ubuntu 20.04 设计的软件和配置的兼容性。

Ubuntu 22.04 AMI 中的关键更新

下表列出了 Ubuntu 22.04 AMI 与上一版本的 AMI 的组件版本对比。

Ubuntu 22.04 AMI 与上一版本的 AMI 的组件版本对比
组件 先前版本 更新后的版本

Ubuntu 操作系统

20.04 LTS

22.04 LTS

Slurm

24.11

24.11(未变更)

Python

3.8(默认)

3.10(默认)

亚马逊上的 Elastic Fabric Adapter (EFA) FSx

不支持

支持

Linux 内核

5.15

6.8

GNU C 库(glibc)

2.31

2.35

GNU 编译器集合(GCC)

9.4.0

11.4.0

libc6

≤ 2.31

支持 ≥ 2.35

网络文件系统(NFS)

1:1.3.4

1:2.6.1

注意

尽管 Slurm 版本(24.11)保持不变,但此 AMI 中底层操作系统和库的更新可能会影响系统行为及工作负载兼容性。在升级生产集群之前,您必须测试工作负载。

升级至 Ubuntu 22.04 AMI

在将集群升级至 Ubuntu 22.04 AMI 之前,请完成这些准备步骤并查看升级要求。要对排查升级失败问题,请参阅排查升级失败问题

查看 Python 兼容性

Ubuntu 22.04 AMI 使用 Python 3.10 作为默认版本(升级自 Python 3.8)。尽管 Python 3.10 能兼容大多数 Python 3.8 代码,但在升级前,您仍应对现有工作负载进行测试。如果您的工作负载需要 Python 3.8,则可以在生命周期脚本中使用以下命令来安装它:

yum install python-3.8

在升级集群之前,请确保执行以下操作:

  1. 测试代码与 Python 3.10 的兼容性。

  2. 确认生命周期脚本能在新环境中正常运行。

  3. 检查所有依赖项是否与新版本的 Python 兼容。

  4. 如果您通过从中复制默认生命周期脚本来创建 HyperPod 集群 GitHub,请在升级到 Ubuntu 22 之前将以下命令添加到您的setup_mariadb_accounting.sh文件中。有关完整的脚本,请参阅上的 setup_mariadb_accounting.sh GitHub

    apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg

升级 Slurm 集群

您可以通过两种方式升级 Slurm 集群以使用新的 AMI:

  1. 使用 CreateCluster API 创建新集群。

  2. 使用 UpdateClusterSoftware API 更新现有集群的软件。

已验证的配置

AWS已在 G5、G6、G6e、p4d、P5 和 Trn1 实例上测试了各种分布式训练工作负载和基础设施功能,包括:

  • 使用 PyTorch (例如 FSDP、、 LLa MA NeMo、MNIST)进行分布式训练。

  • 使用 Nvidia(P/G 系列)和 Neu AWS ron(Trn1)跨实例类型进行加速器测试。

  • 韧性功能,包括自动恢复深度运行状况检查

集群停机时间和可用性

在升级过程中,集群将不可用。要最大限度地减少中断,请执行以下操作:

  • 在较小规模的集群上测试升级过程。

  • 在升级前创建检查点,然后在升级完成后,从现有检查点重新启动训练工作负载。

排查升级失败问题

在升级失败后,先确定失败是否与生命周期脚本有关。这些脚本通常会因语法错误、依赖项缺失或配置不正确而失败。

要调查与生命周期脚本相关的故障,请查看 CloudWatch 日志。所有 SageMaker HyperPod 事件和日志都存储在日志组下:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]。请重点查看日志流 LifecycleConfig/[instance-group-name]/[instance-id],它会提供脚本执行过程中所有错误的详细信息。

如果升级失败与生命周期脚本无关,请收集相关信息(包括集群 ARN、错误日志和时间戳),然后联系 AWS Support 以寻求进一步帮助。

SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 5 月 7 日

亚马逊fo SageMaker HyperPod r Slurm发布了Ubuntu 22.04(从之前的Ubuntu 20.04)的主要操作系统版本升级。有关更多信息,请查看 DLAMI Ubuntu 22.04(发行说明):Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503

关键软件包升级:

  • Ubuntu 22.04 LTS(升级自 20.04)

  • Python 版本:

    • Python 3.10 现在是 Slurm AMI Ubuntu 22.04 中的默认 Python 版本

    • 此次升级可让您获得 Python 3.10 中引入的最新功能、性能改进以及错误修复。

  • Support 对 EFA 的支持 FSx

  • 新 Linux 内核版本 6.8(更新自 5.15)

  • Glibc 版本:2.35(更新自 2.31)

  • GCC 版本:11.4.0(更新自 9.4.0)

  • 更新的 libc6 版本支持(更新自 libc6 版本 2.31 或更低版本)

  • NFS 版本:1:2.6.1(更新自 1:1.3.4)

SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 4 月 28 日

对 Slurm 的改进

亚马逊 SageMaker HyperPod DLAMI 支持 Slurm

Installed the latest version ofAWSNeuron SDK
  • aws-neuronx-collectives: 2.24.59. 0-838c7fc8b

  • aws-neuronx-dkms: 2.20 .28.0

  • aws-neuronx-runtime-lib: 2.24.53.0-f239092cc

  • aws-neuronx-tools/unknown:2.22.61.0

SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 2 月 18 日

对 Slurm 的改进

  • 已将 Slurm 版本升级至 24.11.

  • 已将 Elastic Fabric Adapter(EFA)版本从 1.37.0 升级至 1.38.0。

  • EFA 现在包括 AWS OFI NCCL 插件。您可以在 /opt/amazon/ofi-nccl 目录中而非原始 /opt/aws-ofi-nccl/ 位置找到此插件。如果您需要更新 LD_LIBRARY_PATH 环境变量,请务必修改路径以指向 OFI NCCL 插件的新 /opt/amazon/ofi-nccl 位置。

  • 从这些 DLAMIs软件包中移除了 emacs 软件包。您可以从 GNU emac 安装 emacs。

亚马逊 SageMaker HyperPod DLAMI 支持 Slurm

Installed the latest version ofAWSNeuron SDK 2.19
  • aws-neuronx-collectives/unknown:2.23.135.0-3e70920f2 amd64

  • aws-neuronx-dkms/unknown:2.19.64.0 amd64

  • aws-neuronx-runtime-lib/unknown:2.23.112.0-9b5179492 amd64

  • aws-neuronx-tools/unknown:2.20.204.0 amd64

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 12 月 21 日

SageMaker HyperPod DLAMI 支持 Slurm

Deep Learning Slurm AMI
  • NVIDIA 驱动程序:550.127.05

  • EFA 驱动程序:2.13.0-1

  • 已安装最新版本的 Ne AWS uron SDK

    • aws-neuronx-collectives: 2.22.33.0

    • aws-neuronx-dkms: 2.18.20 .0

    • aws-neuronx-oci-hook: 2.5. 8.0

    • aws-neuronx-runtime-lib: 2.22.19 .0

    • aws-neuronx-tools: 2.19 .0.0

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 11 月 24 日

AMI 常规更新

  • 已在 MEL(墨尔本)区域发布。

  • 将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:

    • Slurm:2024-11-22。

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 11 月 15 日

AMI 常规更新

  • 已安装最新的 libnvidia-nscq-xxx 软件包。

SageMaker HyperPod DLAMI 支持 Slurm

Deep Learning Slurm AMI
  • NVIDIA 驱动程序:550.127.05

  • EFA 驱动程序:2.13.0-1

  • 已安装最新版本的 Ne AWS uron SDK

    • aws-neuronx-collectives: v2.22.33.0-d2128d1aa

    • aws-neuronx-dkms: v2.17.17 .0

    • aws-neuronx-oci-hook: v2.4. 4.0

    • aws-neuronx-runtime-lib: v2.21.4 1.0

    • aws-neuronx-tools: v2.18. 3.0

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 11 月 11 日

AMI 常规更新

  • 将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:

    • Slurm:2024-10-23。

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 10 月 21 日

AMI 常规更新

  • 将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:

    • Slurm:2024-09-27。

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 9 月 10 日

SageMaker HyperPod DLAMI 支持 Slurm

Deep Learning Slurm AMI
  • 安装 NVIDIA 驱动程序 v550.90.07

  • 安装 EFA 驱动程序 v2.10

  • 已安装最新版本的 Ne AWS uron SDK

    • aws-neuronx-collectives: v2.21.4 6.0

    • aws-neuronx-dkms: v2.17.17 .0

    • aws-neuronx-oci-hook: v2.4. 4.0

    • aws-neuronx-runtime-lib: v2.21.4 1.0

    • aws-neuronx-tools: v2.18. 3.0

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 3 月 14 日

HyperPod 适用于 Slurm 的 DLAMI 软件补丁

  • Slurm 升级至 v23.11.1

  • 添加了 Op PMIx en v4.2.6 以启用 Slurm。 PMIx

  • 基于 AWS 发布的深度学习基础 GPU AMI (Ubuntu 20.04) 于 2023 年 10 月 26 日发布

  • 除基本 AMI 外,还包含此 D HyperPod LAMI 中预装软件包的完整列表

    • Slurm:v23.11.1

    • 打开PMIx :v4.2. 6

    • Munge:v0.5.15

    • aws-neuronx-dkms:v2.*

    • aws-neuronx-collectives:v2.*

    • aws-neuronx-runtime-lib:v2.*

    • aws-neuronx-tools:v2.*

    • SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包

升级步骤

  • 运行以下命令调用 UpdateClusterSoftwareAPI,使用最新的 HyperPod DLAMI 更新现有 HyperPod 集群。要了解更多说明,请参阅 更新集群的 SageMaker HyperPod 平台软件

    重要

    运行此 API 前,请备份您的工作。打补丁过程会用更新的 AMI 替换根卷,这意味着存储在实例根卷中的先前数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。 FSx 有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    请注意,您应该运行AWS CLI命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。

SageMaker HyperPod AMI 在 Slurm 上发布:2023 年 11 月 29 日

HyperPod 适用于 Slurm 的 DLAMI 软件补丁

HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请查看以下有关最新 HyperPod DLAMI 的详细信息。

  • 基于 AWS 发布的深度学习基础 GPU AMI (Ubuntu 20.04) 于 2023 年 10 月 18 日发布

  • 除基本 AMI 外,还包含此 D HyperPod LAMI 中预装软件包的完整列表

    • Slurm:v23.02.3

    • Munge:v0.5.15

    • aws-neuronx-dkms:v2.*

    • aws-neuronx-collectives:v2.*

    • aws-neuronx-runtime-lib:v2.*

    • aws-neuronx-tools:v2.*

    • SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包