SageMaker HyperPod AMI 发布了 Slurm 版 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker HyperPod AMI 发布了 Slurm 版

以下发行说明跟踪了适用于 Slurm 编排的 Amazon SageMaker HyperPod AMI 版本的最新更新。 HyperPod AMIs 它们建立在AWS 深度学习基础 GPU AMI (Ubuntu 22.0 4) 之上。 HyperPod服务团队通过SageMaker HyperPod DLAMI分发软件补丁。有关适用于 Amazon EKS 编排的 HyperPod AMI 版本,请参阅SageMaker HyperPod 亚马逊 EKS 的 AMI 发布。有关 Amazon SageMaker HyperPod 功能版本的信息,请参阅亚马逊 SageMaker HyperPod 发行说明

注意

要使用最新的 DLAMI 更新现有 HyperPod 集群,请参阅。更新集群的 SageMaker HyperPod 平台软件

SageMaker HyperPod 发布说明:2025 年 8 月 6 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

Installed the latest version of AWS Neuron SDK
  • aws-neuronx-collectives: 2.27.34.0-ec8cd5e8b amd64 neuron_ccom 使用构建的 CMake

  • aws-neuronx-dkms: 2.23.9.0 所有 aws-neuronx 驱动程序均采用 DKMS 格式

  • aws-neuronx-runtime-lib: 2.27.23.0-8deec4dbf amd64 neuron_runtime 使用构建的 CMake

  • aws-neuronx-tools/unknown:2.25.145.0

重要注意事项

  • 最新的 CUDA 12.8 支持

  • 已将 Nvidia 驱动程序从升级570.158.01570.172.08到修 CVEs 复 NVIDIA 7月安全公告中已修复

SageMaker HyperPod 发布说明:2025 年 5 月 27 日

SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群

新功能和改进

  • Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523使用以下关键组件将基本 AMI 更新为:

    • NVIDIA 驱动程序:570.133.20

    • CUDA:12.8(默认),支持 CUDA 12.4-12.6

    • NCCL 版本:2.26.5

    • EFA 安装程序:1.40.0

    • AWS OFI NCCL:1.14.2-aws

  • 更新了 Neuron SDK 软件包:

    • aws-neuronx-collectives: 2.25.65.0-9858ac9a1(来自 2.24.59.0-838c7fc8b)

    • aws-neuronx-dkms: 2.21.37.0(从 2.20.28.0 开始)

    • aws-neuronx-runtime-lib: 2.25.57.0-166c7a468(来自 2.24.53.0-f239092cc)

    • aws-neuronx-tools: 2.23.9.0(从 2.22.61.0 开始)

重要注意事项

  • NVIDIA 容器工具包 1.17.4 现已禁止安装兼容 CUDA 的库。

  • 将 EFA 配置从 1.37 更新到 1.38,EFA 现在包含 AWS OFI NCCL 插件,该插件位于/opt/amazon/ofi-nccl目录中,而不是原始路径中。/opt/aws-ofi-nccl/(2025年2月18日发布)

  • 为了稳定性和驱动程序兼容性,内核版本已固定。

SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 5 月 13 日

亚马逊 SageMaker HyperPod 发布了更新后的 AMI,支持适用于 Slurm 集群的 Ubuntu 22.04 LTS。 AWS 定期更新 AMIs 以确保您可以访问最新的软件堆栈。升级到最新 AMI 可通过全面的软件包更新、提高工作负载的性能和稳定性以及与新实例类型和最新内核功能的兼容性来增强安全性。

重要

从Ubuntu 20.04 LTS到Ubuntu 22.04 LTS的更新引入的更改可能会影响与专为Ubuntu 20.04设计的软件和配置的兼容性。

Ubuntu 22.04 AMI 中的关键更新

下表列出了 Ubuntu 22.04 AMI 的组件版本与之前的 AMI 的对比。

Ubuntu 22.04 AMI 的组件版本与之前的 AMI 的对比
组件 先前版本 更新版本

Ubuntu 操作系统

20.04 LTS

22.04 LTS

Slurm

24.11

24.11(不变)

Python

3.8(默认值)

3.10(默认)

亚马逊上的 Elastic Fabric Adapter (EFA) FSx

不支持

支持

Linux 内

5.15

6.8

GNU C 库 (glibc)

2.31

2.35

GNU 编译器集合 (GCC)

9.4.0

11.4.0

libc6

≤ 2.31

支持 ≥ 2.35

网络文件系统(NFS)

1:1.3 .4

1:2.6 .1

注意

尽管 Slurm 版本 (24.11) 保持不变,但此 AMI 中的底层操作系统和库更新可能会影响您的系统行为和工作负载兼容性。在升级生产集群之前,您必须测试您的工作负载。

升级到 Ubuntu 22.04 AMI

在将集群升级到 Ubuntu 22.04 AMI 之前,请完成这些准备步骤并查看升级要求。要对升级失败进行故障排除,请参阅升级失败疑难解答

查看 Python 兼容性

Ubuntu 22.04 AMI 使用 Python 3.10 作为默认版本,从 Python 3.8 升级而来。尽管 Python 3.10 保持了与大多数 Python 3.8 代码的兼容性,但你应该在升级之前测试现有的工作负载。如果您的工作负载需要 Python 3.8,则可以在生命周期脚本中使用以下命令进行安装:

yum install python-3.8

在升级集群之前,请务必执行以下操作:

  1. 测试你的代码与 Python 3.10 的兼容性。

  2. 验证您的生命周期脚本在新环境中是否有效。

  3. 检查所有依赖项是否与新的 Python 版本兼容。

  4. 如果您通过从中复制默认生命周期脚本来创建 HyperPod 集群 GitHub,请在升级到 Ubuntu 22 之前将以下命令添加到您的setup_mariadb_accounting.sh文件中。有关完整的脚本,请参阅上的 setup_mariadb_accounting.sh GitHub

    apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg

升级你的 Slurm 集群

您可以通过两种方式升级您的 Slurm 集群以使用新的 AMI:

  1. 使用 CreateClusterAPI 创建新集群。

  2. 使用 UpdateClusterSoftwareAPI 更新现有集群的软件。

经过验证的配置

AWS 已在 G5、G6、G6e、p4d、P5 和 Trn1 实例上测试了各种分布式训练工作负载和基础设施功能,包括:

  • 使用 PyTorch (例如 FSDP、、 LLa MA NeMo、MNIST)进行分布式训练。

  • 使用 Nvidia(P/G 系列)和 Neu AWS ron(Trn1)跨实例类型进行加速器测试。

  • 弹性功能,包括自动恢复深度运行状况检查

集群停机时间和可用性

在升级过程中,集群将不可用。要最大限度地减少干扰,请执行以下操作:

  • 在较小的集群上测试升级过程。

  • 在升级之前创建检查点,然后在升级完成后从现有检查点重新启动训练工作负载。

升级失败疑难解答

升级失败时,请先确定失败是否与生命周期脚本有关。这些脚本通常由于语法错误、缺少依赖项或配置不正确而失败。

要调查与生命周期脚本相关的故障,请查看 CloudWatch 日志。所有 SageMaker HyperPod 事件和日志都存储在日志组下:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]。具体看一下日志流LifecycleConfig/[instance-group-name]/[instance-id],它提供了有关脚本执行期间任何错误的详细信息。

如果升级失败与生命周期脚本无关,请收集相关信息,包括集群 ARN、错误日志和时间戳,然后联系AWS 支持部门寻求进一步帮助。

SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 5 月 7 日

亚马逊fo SageMaker HyperPod r Slurm发布了Ubuntu 22.04(从之前的Ubuntu 20.04)的主要操作系统版本升级。有关更多信息,请查看 DLAMI Ubuntu 22.04(发行说明):。Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503

关键套餐升级:

  • Ubuntu 22.04 LTS(从 20.04 开始)

  • Python 版本:

    • Python 3.10 现在是 Slurm AMI Ubuntu 22.04 中的默认 Python 版本

    • 此次升级允许访问 Python 3.10 中引入的最新功能、性能改进和错误修复

  • Support 对 EFA 的支持 FSx

  • 全新 Linux 内核版本 6.8(从 5.15 更新)

  • Glibc 版本:2.35(从 2.31 更新)

  • 海湾合作委员会版本:11.4.0(从 9.4.0 更新)

  • 支持较新的 libc6 版本(从 libc6 版本开始 <= 2.31)

  • NFS 版本:1:2.6 .1(从 1:1.3 .4 更新)

SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 4 月 28 日

对 Slurm 的改进

亚马逊 SageMaker HyperPod DLAMI 支持 Slurm

Installed the latest version of AWS Neuron SDK
  • aws-neuronx-collectives: 2.24.59. 0-838c7fc8b

  • aws-neuronx-dkms: 2.20 .28.0

  • aws-neuronx-runtime-lib: 2.24.53.0-f239092cc

  • aws-neuronx-tools/unknown:2.22.61.0

SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 2 月 18 日

对 Slurm 的改进

  • 将 Slurm 版本升级到 24.11。

  • 将 Elastic Fabric Adapter (EFA) 版本从 1.37.0 升级到 1.38.0。

  • EFA 现在包括 AWS OFI NCCL 插件。你可以在/opt/amazon/ofi-nccl目录中找到这个插件,而不是原来的/opt/aws-ofi-nccl/位置。如果您需要更新LD_LIBRARY_PATH环境变量,请务必修改路径以指向 OFI NCCL 插件的新/opt/amazon/ofi-nccl位置。

  • 从这些 DLAMIs软件包中移除了 emacs 软件包。你可以从 GNU emac 中安装 emacs。

亚马逊 SageMaker HyperPod DLAMI 支持 Slurm

Installed the latest version of AWS Neuron SDK 2.19
  • aws-neuronx-collectives/unknown:2.23.135.0-3e70920f2 amd64

  • aws-neuronx-dkms/unknown:2.19.64.0 amd64

  • aws-neuronx-runtime-lib/unknown:2.23.112.0-9b5179492 amd64

  • aws-neuronx-tools/unknown:2.20.204.0 amd64

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 12 月 21 日

SageMaker HyperPod DLAMI 支持 Slurm

Deep Learning Slurm AMI
  • NVIDIA 驱动程序:550.127. 05

  • EFA 驱动程序:2.13 .0-1

  • 已安装最新版本的 Ne AWS uron SDK

    • aws-neuronx-collectives: 2.22.33.0

    • aws-neuronx-dkms: 2.18.20 .0

    • aws-neuronx-oci-hook: 2.5. 8.0

    • aws-neuronx-runtime-lib: 2.22.19 .0

    • aws-neuronx-tools: 2.19 .0.0

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 11 月 24 日

AMI 一般更新

  • MEL(墨尔本)地区发布。

  • 将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:

    • Slurm:2024-11-22。

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 11 月 15 日

AMI 一般更新

  • 已安装最新libnvidia-nscq-xxx软件包。

SageMaker HyperPod DLAMI 支持 Slurm

Deep Learning Slurm AMI
  • NVIDIA 驱动程序:550.127. 05

  • EFA 驱动程序:2.13 .0-1

  • 已安装最新版本的 Ne AWS uron SDK

    • aws-neuronx-collectives: v2.22.33.0-d2128d1aa

    • aws-neuronx-dkms: v2.17.17 .0

    • aws-neuronx-oci-hook: v2.4. 4.0

    • aws-neuronx-runtime-lib: v2.21.4 1.0

    • aws-neuronx-tools: v2.18. 3.0

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 11 月 11 日

AMI 一般更新

  • 将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:

    • Slurm:2024-10-23。

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 10 月 21 日

AMI 一般更新

  • 将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:

    • Slurm:2024-09-27。

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 9 月 10 日

SageMaker HyperPod DLAMI 支持 Slurm

Deep Learning Slurm AMI
  • 安装 NVIDIA 驱动程序 v550.90.07

  • 安装 EFA 驱动程序 v2.10

  • 已安装最新版本的 Ne AWS uron SDK

    • aws-neuronx-collectives: v2.21.4 6.0

    • aws-neuronx-dkms: v2.17.17 .0

    • aws-neuronx-oci-hook: v2.4. 4.0

    • aws-neuronx-runtime-lib: v2.21.4 1.0

    • aws-neuronx-tools: v2.18. 3.0

SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 3 月 14 日

HyperPod 适用于 Slurm 的 DLAMI 软件补丁

  • Slurm 升级至 v23.11.1

  • 添加了 Op PMIx en v4.2.6 以启用 Slurm。 PMIx

  • 基于 AWS 发布的深度学习基础 GPU AMI (Ubuntu 20.04) 于 2023 年 10 月 26 日发布

  • 除基本 AMI 外,还包含此 D HyperPod LAMI 中预装软件包的完整列表

    • Slurm:v23.11.1

    • 打开PMIx :v4.2. 6

    • Munge:v0.5.15

    • aws-neuronx-dkms:v2.*

    • aws-neuronx-collectives:v2.*

    • aws-neuronx-runtime-lib:v2.*

    • aws-neuronx-tools:v2.*

    • SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包

升级步骤

  • 运行以下命令调用 UpdateClusterSoftwareAPI,使用最新的 HyperPod DLAMI 更新现有 HyperPod 集群。要了解更多说明,请参阅 更新集群的 SageMaker HyperPod 平台软件

    重要

    运行此 API 前,请备份您的工作。打补丁过程会用更新的 AMI 替换根卷,这意味着存储在实例根卷中的先前数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。 FSx 有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    请注意,您应该运行 AWS CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。

SageMaker HyperPod AMI 在 Slurm 上发布:2023 年 11 月 29 日

HyperPod 适用于 Slurm 的 DLAMI 软件补丁

HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请查看以下有关最新 HyperPod DLAMI 的详细信息。

  • 基于 AWS 发布的深度学习基础 GPU AMI (Ubuntu 20.04) 于 2023 年 10 月 18 日发布

  • 除基本 AMI 外,还包含此 D HyperPod LAMI 中预装软件包的完整列表

    • Slurm:v23.02.3

    • Munge:v0.5.15

    • aws-neuronx-dkms:v2.*

    • aws-neuronx-collectives:v2.*

    • aws-neuronx-runtime-lib:v2.*

    • aws-neuronx-tools:v2.*

    • SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包