本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
SageMaker HyperPod AMI 发布了 Slurm 版
以下发行说明跟踪了适用于 Slurm 编排的 Amazon SageMaker HyperPod AMI 版本的最新更新。 HyperPod AMIs 它们建立在AWS深度学习基础 GPU AMI (Ubuntu 22.0
注意
要使用最新的 DLAMI 更新现有 HyperPod 集群,请参阅。更新集群的 SageMaker HyperPod 平台软件
SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 11 月 22 日
AMI 常规更新
-
已发布适用于 Slurm 的 SageMaker HyperPod AMI 版本 24.11 的更新。
SageMaker HyperPod DLAMI 支持 Slurm
此版本包含以下更新:
SageMaker HyperPod 发布说明:2025 年 11 月 7 日
AMI 包括以下内容:
-
支持AWS 服务:亚马逊 EC2
-
操作系统:Ubuntu 22.04
-
计算架构: ARM64
-
更新的软件包:NVIDIA 驱动程序:580.95.05
-
CUDA 版本:cuda-12.6、cuda-12.8、cuda-12.9、cuda-13.0
-
安全补丁:Runc 安全
补丁
SageMaker HyperPod 发布说明:2025 年 9 月 29 日
AMI 包括以下内容:
-
支持AWS 服务:亚马逊 EC2
-
操作系统:Ubuntu 22.04
-
计算架构: ARM64
-
更新的软件包:NVIDIA 驱动程序:570.172.08
-
安全修复
SageMaker HyperPod 发布说明:2025 年 8 月 12 日
AMI 包括以下内容:
-
支持AWS 服务:亚马逊 EC2
-
操作系统:Ubuntu 22.04
-
计算架构: ARM64
-
已为以下软件包安装了最新的可用版本:
-
Linux 内核:6.8
-
FSx Lustre
-
Docker
-
AWS CLIv2 在
/usr/bin/aws -
NVIDIA DCGM
-
Nvidia Container Toolkit:
-
版本命令:
nvidia-container-cli -V
-
-
Nvidia-docker2:
-
版本命令:
nvidia-docker version
-
-
nvidia-imex:v570.172.08-1
-
-
NVIDIA 驱动程序:570.158.01
-
NVIDIA CUDA 12.4、12.5、12.6、12.8 堆栈:
-
CUDA、NCCL 和 cudDN 安装目录:
/usr/local/cuda-xx.x/-
示例:
/usr/local/cuda-12.8/、/usr/local/cuda-12.8/
-
-
已编译的 NCCL 版本:
-
对于 12.4 的 CUDA 目录,编译了 NCCL 版本 2.22.3+ .4 CUDA12
-
对于 12.5 的 CUDA 目录,编译了 NCCL 版本 2.22.3+ .5 CUDA12
-
对于 12.6 的 CUDA 目录,编译了 NCCL 版本 2.24.3+ .6 CUDA12
-
对于 12.8 的 CUDA 目录,编译了 NCCL 版本 2.27.5+ .8 CUDA12
-
-
默认 CUDA:12.8
-
PATH
/usr/local/cuda指向 CUDA 12.8 -
更新以下环境变量:
-
LD_LIBRARY_PATH拥有/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64 -
PATH拥有/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/ -
对于任何不同的 CUDA 版本,请
LD_LIBRARY_PATH相应更新。
-
-
-
-
EFA 安装程序:1.42.0
-
英伟达 GDRCopy:2.5.1
-
AWSOFI NCCL 插件附带 EFA 安装程序
-
路径
/opt/amazon/ofi-nccl/lib/aarch64-linux-gnu和/opt/amazon/ofi-nccl/efa已添加到LD_LIBRARY_PATH。
-
-
AWS CLIv2 位于
/usr/local/bin/aws2,AWS CLIv1 位于/usr/bin/aws -
EBS 卷类型:gp3
-
Python:
/usr/bin/python3.10
SageMaker HyperPod 发布说明:2025 年 5 月 27 日
SageMaker HyperPod 为发布以下内容使用 Slurm 编排 SageMaker HyperPod 集群。
新功能和改进
-
已使用以下关键组件将基础 AMI 更新至
Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 22.04) 20250523:-
NVIDIA 驱动程序:570.133.20
-
CUDA:12.8(默认值),支持 CUDA 12.4-12.6
-
NCCL 版本:2.26.5
-
EFA 安装程序:1.40.0
-
AWSOFI NCCL:1.14.2-aws
-
-
更新了 Neuron SDK 软件包:
-
aws-neuronx-collectives: 2.25.65.0-9858ac9a1(来自 2.24.59.0-838c7fc8b)
-
aws-neuronx-dkms: 2.21.37.0(从 2.20.28.0 开始)
-
aws-neuronx-runtime-lib: 2.25.57.0-166c7a468(来自 2.24.53.0-f239092cc)
-
aws-neuronx-tools: 2.23.9.0(从 2.22.61.0 开始)
-
重要提示
-
NVIDIA 容器工具包 1.17.4 现已禁止挂载 CUDA 兼容性库。
-
已将 EFA 配置从 1.37 更新至 1.38,EFA 现在包含 AWS OFI NCCL 插件,该插件位于
/opt/amazon/ofi-nccl目录而非原始/opt/aws-ofi-nccl/路径中。(发布日期:2025 年 2 月 18 日) -
为确保稳定性和驱动程序兼容性,已固定内核版本。
SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 5 月 13 日
亚马逊 SageMaker HyperPod 发布了更新后的 AMI,支持适用于 Slurm 集群的 Ubuntu 22.04 LTS。 AWS定期更新 AMIs 以确保您可以访问最新的软件堆栈。通过升级到最新的 AMI,可通过全面的软件包更新增强安全性,提升工作负载的性能与稳定性,并实现与新实例类型及最新内核功能的兼容。
重要
从 Ubuntu 20.04 LTS 更新至 Ubuntu 22.04 LTS 会引入重大变更,这些变更可能会影响与为 Ubuntu 20.04 设计的软件和配置的兼容性。
在本发行说明中,您将看到:
Ubuntu 22.04 AMI 中的关键更新
下表列出了 Ubuntu 22.04 AMI 与上一版本的 AMI 的组件版本对比。
| 组件 | 先前版本 | 更新后的版本 |
|---|---|---|
|
Ubuntu 操作系统 |
20.04 LTS |
22.04 LTS |
|
Slurm |
24.11 |
24.11(未变更) |
|
Python |
3.8(默认) |
3.10(默认) |
|
亚马逊上的 Elastic Fabric Adapter (EFA) FSx |
不支持 |
支持 |
|
Linux 内核 |
5.15 |
6.8 |
|
GNU C 库(glibc) |
2.31 |
2.35 |
|
GNU 编译器集合(GCC) |
9.4.0 |
11.4.0 |
|
libc6 |
≤ 2.31 |
支持 ≥ 2.35 |
|
网络文件系统(NFS) |
1:1.3.4 |
1:2.6.1 |
注意
尽管 Slurm 版本(24.11)保持不变,但此 AMI 中底层操作系统和库的更新可能会影响系统行为及工作负载兼容性。在升级生产集群之前,您必须测试工作负载。
升级至 Ubuntu 22.04 AMI
在将集群升级至 Ubuntu 22.04 AMI 之前,请完成这些准备步骤并查看升级要求。要对排查升级失败问题,请参阅排查升级失败问题。
查看 Python 兼容性
Ubuntu 22.04 AMI 使用 Python 3.10 作为默认版本(升级自 Python 3.8)。尽管 Python 3.10 能兼容大多数 Python 3.8 代码,但在升级前,您仍应对现有工作负载进行测试。如果您的工作负载需要 Python 3.8,则可以在生命周期脚本中使用以下命令来安装它:
yum install python-3.8
在升级集群之前,请确保执行以下操作:
-
测试代码与 Python 3.10 的兼容性。
-
确认生命周期脚本能在新环境中正常运行。
-
检查所有依赖项是否与新版本的 Python 兼容。
-
如果您通过从中复制默认生命周期脚本来创建 HyperPod 集群 GitHub,请在升级到 Ubuntu 22 之前将以下命令添加到您的
setup_mariadb_accounting.sh文件中。有关完整的脚本,请参阅上的 setup_mariadb_accounting.sh GitHub。 apt-get -y -o DPkg::Lock::Timeout=120 update && apt-get -y -o DPkg::Lock::Timeout=120 install apg
升级 Slurm 集群
您可以通过两种方式升级 Slurm 集群以使用新的 AMI:
-
使用
CreateClusterAPI 创建新集群。 -
使用
UpdateClusterSoftwareAPI 更新现有集群的软件。
已验证的配置
AWS已在 G5、G6、G6e、p4d、P5 和 Trn1 实例上测试了各种分布式训练工作负载和基础设施功能,包括:
集群停机时间和可用性
在升级过程中,集群将不可用。要最大限度地减少中断,请执行以下操作:
-
在较小规模的集群上测试升级过程。
-
在升级前创建检查点,然后在升级完成后,从现有检查点重新启动训练工作负载。
排查升级失败问题
在升级失败后,先确定失败是否与生命周期脚本有关。这些脚本通常会因语法错误、依赖项缺失或配置不正确而失败。
要调查与生命周期脚本相关的故障,请查看 CloudWatch 日志。所有 SageMaker HyperPod 事件和日志都存储在日志组下:/aws/sagemaker/Clusters/[ClusterName]/[ClusterID]。请重点查看日志流 LifecycleConfig/[instance-group-name]/[instance-id],它会提供脚本执行过程中所有错误的详细信息。
如果升级失败与生命周期脚本无关,请收集相关信息(包括集群 ARN、错误日志和时间戳),然后联系 AWS Support
SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 5 月 7 日
亚马逊fo SageMaker HyperPod r Slurm发布了Ubuntu 22.04(从之前的Ubuntu 20.04)的主要操作系统版本升级。有关更多信息,请查看 DLAMI Ubuntu 22.04(发行说明Deep Learning Base OSS
Nvidia Driver GPU AMI (Ubuntu 22.04) 20250503。
关键软件包升级:
-
Ubuntu 22.04 LTS(升级自 20.04)
-
Python 版本:
-
Python 3.10 现在是 Slurm AMI Ubuntu 22.04 中的默认 Python 版本
-
此次升级可让您获得 Python 3.10 中引入的最新功能、性能改进以及错误修复。
-
-
Support 对 EFA 的支持 FSx
-
新 Linux 内核版本 6.8(更新自 5.15)
-
Glibc 版本:2.35(更新自 2.31)
-
GCC 版本:11.4.0(更新自 9.4.0)
-
更新的 libc6 版本支持(更新自 libc6 版本 2.31 或更低版本)
-
NFS 版本:1:2.6.1(更新自 1:1.3.4)
SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 4 月 28 日
对 Slurm 的改进
-
已将 NVIDIA 驱动程序从版本 550.144.03 升级至版本 550.163.01。此次升级旨在解决 2025 年 4 月 NVIDIA GPU 显示屏安全公告
中存在的常见漏洞和漏洞 (CVEs)。
亚马逊 SageMaker HyperPod DLAMI 支持 Slurm
SageMaker HyperPod AMI 在 Slurm 上发布:2025 年 2 月 18 日
对 Slurm 的改进
-
已将 Slurm 版本升级至 24.11.
-
已将 Elastic Fabric Adapter(EFA)版本从 1.37.0 升级至 1.38.0。
-
EFA 现在包括 AWS OFI NCCL 插件。您可以在
/opt/amazon/ofi-nccl目录中而非原始/opt/aws-ofi-nccl/位置找到此插件。如果您需要更新LD_LIBRARY_PATH环境变量,请务必修改路径以指向 OFI NCCL 插件的新/opt/amazon/ofi-nccl位置。 -
从这些 DLAMIs软件包中移除了 emacs 软件包。您可以从 GNU emac 安装 emacs。
亚马逊 SageMaker HyperPod DLAMI 支持 Slurm
SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 12 月 21 日
SageMaker HyperPod DLAMI 支持 Slurm
SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 11 月 24 日
AMI 常规更新
-
已在
MEL(墨尔本)区域发布。 -
将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:
-
Slurm:2024-11-22。
-
SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 11 月 15 日
AMI 常规更新
-
已安装最新的
libnvidia-nscq-xxx软件包。
SageMaker HyperPod DLAMI 支持 Slurm
SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 11 月 11 日
AMI 常规更新
-
将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:
-
Slurm:2024-10-23。
-
SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 10 月 21 日
AMI 常规更新
-
将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:
-
Slurm:2024-09-27。
-
SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 9 月 10 日
SageMaker HyperPod DLAMI 支持 Slurm
SageMaker HyperPod AMI 在 Slurm 上发布:2024 年 3 月 14 日
HyperPod 适用于 Slurm 的 DLAMI 软件补丁
-
将 Slurm
升级至 v23.11.1 -
添加了 Op PMIx en
v4.2.6 以启用 Slurm 。 PMIx -
基于 AWS 发布的深度学习基础 GPU AMI (Ubuntu 20.04)
于 2023 年 10 月 26 日发布 -
除基本 AMI 外,还包含此 D HyperPod LAMI 中预装软件包的完整列表
-
Slurm
:v23.11.1 -
Munge:v0.5.15
-
aws-neuronx-dkms:v2.* -
aws-neuronx-collectives:v2.* -
aws-neuronx-runtime-lib:v2.* -
aws-neuronx-tools:v2.* -
SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包
-
升级步骤
-
运行以下命令调用 UpdateClusterSoftwareAPI,使用最新的 HyperPod DLAMI 更新现有 HyperPod 集群。要了解更多说明,请参阅 更新集群的 SageMaker HyperPod 平台软件。
重要
运行此 API 前,请备份您的工作。打补丁过程会用更新的 AMI 替换根卷,这意味着存储在实例根卷中的先前数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。 FSx 有关更多信息,请参阅 使用提供的备份脚本 SageMaker HyperPod。
aws sagemaker update-cluster-software --cluster-nameyour-cluster-name注意
请注意,您应该运行AWS CLI命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。
SageMaker HyperPod AMI 在 Slurm 上发布:2023 年 11 月 29 日
HyperPod 适用于 Slurm 的 DLAMI 软件补丁
HyperPod 服务团队通过SageMaker HyperPod DLAMI分发软件补丁。请查看以下有关最新 HyperPod DLAMI 的详细信息。
-
基于 AWS 发布的深度学习基础 GPU AMI (Ubuntu 20.04)
于 2023 年 10 月 18 日发布 -
除基本 AMI 外,还包含此 D HyperPod LAMI 中预装软件包的完整列表
-
Slurm
:v23.02.3 -
Munge:v0.5.15
-
aws-neuronx-dkms:v2.* -
aws-neuronx-collectives:v2.* -
aws-neuronx-runtime-lib:v2.* -
aws-neuronx-tools:v2.* -
SageMaker HyperPod 支持集群运行状况检查和自动恢复等功能的软件包
-