本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
SageMaker HyperPod 亚马逊 EKS 的 AMI 发布
以下发行说明跟踪了适用于亚马逊 EKS 编排的 Amazon SageMaker HyperPod AMI 版本的最新更新。每份发行说明都包含在 SageMaker HyperPod DLAMIs Amazon EKS 支持中预安装或预配置的软件包的摘要列表。每个 DLAMI 都基于 023 构建,支持特定的 AL2 Kubernetes 版本。有关 HyperPod Slurm 编排的 DLAMI 版本,请参阅。SageMaker HyperPod AMI 发布了 Slurm 版有关 Amazon SageMaker HyperPod 功能版本的信息,请参阅亚马逊 SageMaker HyperPod 发行说明。
SageMaker Hyperpod AMI 在亚马逊 EKS 上发布:2025 年 11 月 22 日
AMI 常规更新
-
发布了适用于亚马逊 EKS 的 SageMaker Hyperpod AMI 版本 1.28、1.29、1.30、1.31、1.32、1.33 的更新。
SageMaker 适用于 Amazon EKS 的 Hypod DLAMI 支持
此版本包含以下更新:
SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 11 月 7 日
AMI 常规更新
-
发布了适用于亚马逊 EKS 的 SageMaker HyperPod AMI 版本 1.28、1.29、1.30、1.31、1.32 和 1.33 的更新。
SageMaker HyperPod 适用于 Amazon 的 DLAMI EKS 支持
此版本包含以下更新:
SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 10 月 29 日
AMI 常规更新
-
发布了适用于亚马逊 EKS 的 SageMaker HyperPod AMI 版本 1.28、1.29、1.30、1.31、1.32 和 1.33 的更新。
SageMaker HyperPod 适用于 Amazon 的 DLAMI EKS 支持
此版本包含以下更新:
SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 10 月 22 日
AL2x86
注意
亚马逊 Linux 2 现已弃用。Kubernetes AMI 基于 AL2 023。
-
EKS 版本 1.28-1.32
-
此版本包含 Nvidia 十月安全公告中针对受影响的 NVIDI
A 驱动程序包的 CVE 补丁。 -
NVIDIA SMI
NVIDIA-SMI 570.195.03 Driver Version: 570.195.03 CUDA Version: 12.8 -
主要版本
软件包名称 版本 框架版本 70 gdr_copy 2.4.1 支持的_ec2_instances g4dn、G5、G6、Gr6、G6e、p4d、p4de、P5、p5e、p5e、p5en efa_版本 1.43.3 ebs_volume_type gp3 nvidia 驱动程序 570.195.03 python_location /usr/bin/python3.10 nvidia_cuda_stack /usr/local/cuda-12.1,/usr/local/cuda-12.2,/usr/local/cuda-12.3,/usr/local/cuda-12.4 ssm_agent_version 3.3.3050.0 内核版本 5.10.244-240.965.amzn2.x86_64 nvidia 容器工具包版本 1.17.8 ofi_nccl_version 1.16.3 操作系统 Amazon Linux 2 默认_cuda /usr/local/cuda-12.1/ 计算架构 x86_64 -
已添加软件包:此版本中未添加任何软件包。
-
更新的软件包
软件包名称 以前的版本 新版本 boto3 1.40.46 1.40.49 botocore 1.40.46 1.40.49 fastapi 0.118.0 0.118.2 文件锁 3.19.1 3.20.0 importlib_元数据 8.7.0 8.0.0 jaraco.conte 6.0.1 5.3.0 jaco.functools 4.3.0 4.0.1 matplotlib 3.10.6 3.10.7 打包 25 24.2 平台目录 4.4.0 4.5.0 propcache 0.4.0 0.4.1 丰富 14.1.0 14.2.0 tomli 2.2.1 2.3.0 types-python-dateutil 2.9.0.20250822 2.9.0.20251008 virtualenv 20.34.0 20.35.1 websocket-Client 1.8.0 1.9.0 -
已删除的软件包:此版本中未删除任何软件包。
AL2023x86
-
EKS 版本 1.28-1.32。EKS 1.33 版本没有发布。
-
此版本包含 Nvidia 十月安全公告中针对受影响的 NVIDI
A 驱动程序包的 CVE 补丁。 -
NVIDIA SMI
NVIDIA-SMI 580.95.05 Driver Version: 580.95.05 CUDA Version: 13.0 -
主要版本
软件包名称 版本 gdr_copy 2.5.1 支持的_ec2_instances g4dn、G5、G6、Gr6、G6e、p4d、p4de、P5、p5e、p5en、P6-B200 efa_版本 1.43.3 ebs_volume_type gp3 nvidia_gds_version 1.15.0.42 nvidia 驱动程序 580.95.05 python_location /usr/bin/python3.9 nvidia_cuda_stack /usr/local/cuda-12.6,/usr/local/cuda-12.8,/usr/local/cuda-12.9,/usr/local/cuda-13.0 ssm_agent_version 3.3.3050.0 内核版本 6.1.153-175.280.amzn2023.x86_64 nvidia 容器工具包版本 1.17.8 dcgm_version 4.4.1 ofi_nccl_version 1.16.3 操作系统 亚马逊 Linux 2023.9.20250929 默认_cuda /usr/local/cuda-12.9/ 计算架构 x86_64 -
已添加软件包:此版本中未添加任何软件包。
-
更新的软件包
软件包名称 以前的版本 新版本 boto3 1.40.46 1.40.49 botocore 1.40.46 1.40.49 fastapi 0.118.0 0.118.2 gdrcopy 2.5-1 2.5.1-1 gdrcopy-devel 2.5-1 2.5.1-1 gdrcopy-kmod 2.5-1dkms 2.5.1-1dkms jaraco.conte 6.0.1 5.3.0 jaco.functools 4.3.0 4.0.1 更多的 itertools 10.8.0 10.3.0 打包 25 24.2 propcache 0.4.0 0.4.1 pydantic 2.11.10 2.12.0 pydantic_core 2.33.2 2.41.1 丰富 14.1.0 14.2.0 types-python-dateutil 2.9.0.20250822 2.9.0.20251008 打字扩展 4.12.2 4.15.0 virtualenv 20.34.0 20.35.1 websocket-Client 1.8.0 1.9.0 -
已删除的软件包:此版本中未删除任何软件包。
AL2023 ARM64
-
EKS 版本 1.3-1.33。
-
此版本包含 Nvidia 十月安全公告中针对受影响的 NVIDI
A 驱动程序包的 CVE 补丁。 -
NVIDIA SMI
NVIDIA-SMI 580.95.05 Driver Version: 580.95.05 CUDA Version: 13.0 -
主要版本
软件包名称 版本 gdr_copy 2.5 支持的_ec2_instances g5g、p6e-00 GB2 efa_版本 1.43.3 ebs_volume_type gp3 nvidia 驱动程序 580.95.05 python_location /usr/bin/python3.9 nvidia_cuda_stack /usr/local/cuda-12.6,/usr/local/cuda-12.8,/usr/local/cuda-12.9,/usr/local/cuda-13.0 ssm_agent_version 3.3.3050.0 内核版本 6.12.46-66.121.amzn2023.aarch64 nvidia 容器工具包版本 1.17.8 dcgm_version 4.4.1 ofi_nccl_version 1.16.3 操作系统 亚马逊 Linux 2023.9.20250929 默认_cuda /usr/local/cuda-12.9/ 计算架构 aarch64 -
已添加软件包:此版本中未添加任何软件包。
-
更新的软件包
软件包名称 以前的版本 新版本 aiohttp 3.12.15 3.13.0 attrs 25.3.0 25.4.0 boto3 1.40.45 1.40.49 botocore 1.40.45 1.40.49 cattrs 25.2.0 25.3.0 认证 2025.8.3 2025.10.5 efa 2.17.2-1.amzn2023 2.17.3-1.amzn2023 fastapi 0.118.0 0.118.2 冰雪奇缘名单 1.7.0 1.8.0 importlib_元数据 8.7.0 8.0.0 jaraco.conte 5.3.0 6.0.1 多词典 6.6.4 6.7.0 独角鲸 2.6.0 2.7.0 nh3 0.3.0 0.3.1 propcache 0.3.2 0.4.1 pydantic 2.11.9 2.12.0 pydantic_core 2.33.2 2.41.1 pylint 3.3.8 3.3.9 python-json-logger 3.3.0 4.0.0 丰富 14.1.0 14.2.0 tomli 2.2.1 2.0.1 types-python-dateutil 2.9.0.20250822 2.9.0.20251008 virtualenv 20.34.0 20.35.1 websocket-Client 1.8.0 1.9.0 yarl 1.20.1 1.22.0 zippp 3.19.2 3.23.0 -
已删除的软件包:此版本中未删除任何软件包。
SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 9 月 29 日
AMI 常规更新
-
发布了适用于亚马逊 EKS 1.33 的新 SageMaker HyperPod AMI。有关更多信息,请参阅亚马逊 EKS 的 SageMaker HyperPod AMI 版本:2025 年 9 月 29 日。
重要
在此版本中,动态资源分配测试版 Kubernetes API 默认处于启用状态。
-
此 API 改进了调度和监控需要资源的工作负载,例如 GPUs。
-
此 API 是由开源 Kubernetes 社区开发的,在未来的 Kubernetes 版本中可能会发生变化。在使用 API 之前,请查看 Kubernetes 文档
并了解它如何影响您的工作负载。
-
-
HyperPod 没有发布适用于 Kubernetes 1.33 的 HyperPod 亚马逊 Linux 2 AMI。 AWS建议您迁移到 AL2 023。有关更多信息,请参阅从亚马逊 Linux 2 升级到 AL2 023。
有关更多信息,请参阅 Kubernetes
SageMaker HyperPod 适用于 Amazon 的 DLAMI EKS 支持
此版本包含以下更新:
SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 8 月 25 日
SageMaker HyperPod 适用于 Amazon 的 DLAMI EKS 支持
此版本包含以下更新:
SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 8 月 12 日
AMI 包括以下内容:
-
支持的AWS服务:Amazon EC2
-
操作系统:亚马逊 Linux 2023
-
计算架构: ARM64
-
已为以下软件包安装了最新的可用版本:
-
Linux 内核:6.12
-
FSx Lustre
-
Docker
-
AWS CLIv2 在
/usr/bin/aws -
NVIDIA DCGM
-
Nvidia Container Toolkit:
-
版本命令:
nvidia-container-cli -V
-
-
Nvidia-docker2:
-
版本命令:
nvidia-docker version
-
-
nvidia-imex:v570.172.08-1
-
-
NVIDIA 驱动程序:570.158.01
-
NVIDIA CUDA 12.4、12.5、12.6、12.8 堆栈:
-
CUDA、NCCL 和 cudDN 安装目录:
/usr/local/cuda-xx.x/-
示例:
/usr/local/cuda-12.8/、/usr/local/cuda-12.8/
-
-
已编译的 NCCL 版本:
-
对于 12.4 的 CUDA 目录,编译了 NCCL 版本 2.22.3+ .4 CUDA12
-
对于 12.5 的 CUDA 目录,编译了 NCCL 版本 2.22.3+ .5 CUDA12
-
对于 12.6 的 CUDA 目录,编译了 NCCL 版本 2.24.3+ .6 CUDA12
-
对于 12.8 的 CUDA 目录,编译了 NCCL 版本 2.27.5+ .8 CUDA12
-
-
默认 CUDA:12.8
-
PATH
/usr/local/cuda指向 CUDA 12.8 -
更新以下环境变量:
-
LD_LIBRARY_PATH拥有/usr/local/cuda-12.8/lib:/usr/local/cuda-12.8/lib64:/usr/local/cuda-12.8:/usr/local/cuda-12.8/targets/sbsa-linux/lib:/usr/local/cuda-12.8/nvvm/lib64:/usr/local/cuda-12.8/extras/CUPTI/lib64 -
PATH拥有/usr/local/cuda-12.8/bin/:/usr/local/cuda-12.8/include/ -
对于任何不同的 CUDA 版本,请
LD_LIBRARY_PATH相应更新。
-
-
-
-
EFA 安装程序:1.42.0
-
英伟达 GDRCopy:2.5.1
-
AWSOFI NCCL 插件附带 EFA 安装程序
-
路径
/opt/amazon/ofi-nccl/lib和/opt/amazon/ofi-nccl/efa已添加到LD_LIBRARY_PATH。
-
-
AWS CLIv2 在
/usr/local/bin/aws -
EBS 卷类型:gp3
-
Python:
/usr/bin/python3.9
SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 8 月 6 日
SageMaker HyperPod 适用于 Amazon 的 DLAMI EKS 支持
AMIs 包括以下更新:
重要
-
Deep Learning Base OSS Nvidia Driver AMI(Amazon Linux 2)版本 70.3
-
深度学习基础版专有 Nvidia 驱动程序 AMI(Amazon Linux 2)版本 68.4
-
最新的 CUDA 12.8 支持
-
已将 Nvidia 驱动程序从 570.158.01 升级到 570.172.08 以修复 Nvidia 7 月版安全公告中提及的 CVE
SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 7 月 31 日
亚马逊 SageMaker HyperPod 现在支持适用于亚马逊 EKS 集群的新 AMI,该集群可将基本操作系统更新到亚马逊 Linux 2023。此版本对 Amazon Linux 2 (AL2) 进行了多项改进。 HyperPod AMIs 定期发布新版本,我们建议您在最新、最安全的版本上运行所有 HyperPod 集群, AMIs 以解决漏洞并逐步淘汰过时的软件和库。
关键升级
-
操作系统:亚马逊 Linux 2023(从亚马逊 Linux 2 更新,或者 AL2)
-
P@@ ackage Manager:DNF 是默认的包管理工具,取代了中使用的 YUM AL2
-
网络服务:
systemd-networkd管理网络接口,取代中dhclient使用的 ISC AL2 -
Linux 内核:版本 6.1,根据中使用的内核进行了更新 AL2
-
Glibc:版本 2.34,已从中的版本更新 AL2
-
GCC:版本 11.5.0,已从中的版本更新 AL2
-
NFS:版本 1:2.6 .1,从 1:1.3 .4 版本更新 AL2
-
NVIDIA 驱动程序:版本 570.172.08,该驱动程序的更新版本
-
Python:版本 3.9,取代了中使用的 Python 2.7 AL2
-
NVME:版本 1.11.1,驱动程序的更新版本 NVMe
升级之前
在升级前,您需要了解几个重要事项。与 AL2 023 相比,已添加、升级或删除了多个软件包。 AL2我们强烈建议您在升级集群之前使用 AL2 023 测试您的应用程序。有关 AL2 023 年所有软件包变更的完整列表,请参阅亚马逊 Linux 2023 中的软件包变更。
以下是与 AL2 023 AL2 之间的一些重大变化:
-
Python 3.10:除操作系统外,最重大的更新是 Python 版本升级。升级后,集群默认使用 Python 3.10。虽然某些 Python 3.8 分布式训练工作负载可能与 Python 3.10 兼容,但我们强烈建议您单独测试特定的工作负载。如果迁移到 Python 3.10 确实存在困难,但您仍希望升级集群以获取其他新功能,则您可以在运行任何工作负载之前,结合使用
yum install python-xx.x命令与生命周期脚本来安装旧版本的 Python。请务必测试现有生命周期脚本与应用程序代码的兼容性。 -
NVIDIA 运行时强制执行: AL2023 严格执行 NVIDIA 容器运行时要求,导致带有硬编码 NVIDIA 环境变量(例如
NVIDIA_VISIBLE_DEVICES: "all")的容器在仅限 CPU 的节点上出现故障(而在没有 GPU 驱动程序时会 AL2 忽略这些设置)。您可以通过在容器组(pod)规范中设置NVIDIA_VISIBLE_DEVICES: "void"或使用仅含 CPU 的映像来覆盖强制执行。 -
cgroup v2: AL2 023 具有下一代统一控制组层次结构(cgroup v2)。cgroup v2 用于容器运行时,也被使用。
systemd虽然 AL2 023 仍然包含可以让系统使用 cgroup v1 运行的代码,但这不是推荐的配置。 -
亚马逊 VPC CNI 和
eksctl版本: AL2023 还要求您的亚马逊 VPC CNI 版本为 1.16.2 或更高版本,您的版本必须为 0.176.0 或更高eksctl版本。 -
启用 EFA for Lustre:您现在可以在 Lustre 上 FSx 使用 EFA,这使您能够实现与本地 AI/ML 或 HPC(高性能计算)集群相当的应用程序性能,同时受益于云计算的可扩展性、灵活性和弹性。 FSx
此外,升级到 AL2 023 需要最低版本的 Health Monitor 1.0.643.0_1.0.192.0 ing Agent。完成以下过程可更新运行状况监控代理:
-
如果您使用 GitHub存储库中的 HyperPod 生命周期脚本 awsome-distributed-training
,请确保提取最新版本。早期版本与 AL2 023 不兼容。新的生命周期脚本可确保在 AL2 023 年 containerd使用额外挂载的存储空间来提取容器镜像。 -
获取最新版本的 HyperPod CLI git 存储库
。 -
使用以下命令更新依赖项:
helm dependencies update helm_chart/HyperPodHelmChart -
如自述文件
中的步骤 4 所述 HyperPodHelmChart,运行以下命令以升级集群上运行的依赖项版本: helm upgrade dependencies helm_chart/HyperPodHelmChart -namespace kube-system
已在升级后的 EKS 集群上完成测试的工作负载
以下是已针对此次升级完成测试的部分使用案例:
-
向后兼容:涉及的热门分布式训练作业 PyTorch 应在新的 AMI 上向后兼容。然而,由于您的工作负载可能依赖特定的 Python 或 Linux 库,我们建议您先在小型节点或部分节点上进行测试,然后再升级大型集群。
-
加速器测试:已经测试了使用 NVIDIA 加速器(用于 P 和 G 实例系列)和 Ne AWS uron 加速器(用于 Trn 实例)的不同实例类型的作业。
如何升级 AMI 及关联的工作负载
您可以使用下列方法之一来升级到新 AMI:
-
使用 create-cluster API 以使用最新 AMI 创建新集群。
-
使用 update-cluster-softwareAPI 升级您的现有集群。请注意,此选项会重新运行所有生命周期脚本。
在更新过程中,集群将不可用。我们建议为此次停机时间做好规划,并在升级完成后,从现有检查点重新启动训练工作负载。作为最佳实践,我们建议您先在小型集群上执行测试,然后再升级大型集群。
如果更新命令失败,请先确定失败原因。对于生命周期脚本失败,请对脚本进行必要的更正并重试。对于任何其他无法解决的问题,请联系 AWS 支持
问题排查
使用以下部分来帮助解决您在升级到 AL2 023 时遇到的任何问题。
如何修复仅含 CPU 的集群节点上出现的诸如 "nvml error: driver
not loaded: unknown" 之类的错误?
如果在 CPU AL2 Amazon EKS 节点上运行的容器现在在 AL2 023 上出现故障,则您的容器映像可能包含硬编码的 NVIDIA 环境变量。可使用以下命令检查硬编码的环境变量:
docker inspect image:tag | grep -i nvidia
AL2023 严格执行这些要求,而对仅限 CPU AL2 的节点则更为宽松。一种解决方案是通过在 Amazon EKS Pod 规范中设置某些 NVIDIA 环境变量来覆盖 AL2 023 强制执行,如以下示例所示:
yaml containers: - name: your-container image: your-image:tag env: - name: NVIDIA_VISIBLE_DEVICES value: "void" - name: NVIDIA_DRIVER_CAPABILITIES value: ""
另一种替代方案是使用仅含 CPU 的容器映像(例如 pytorch/pytorch:latest-cpu),或构建不包含 NVIDIA 依赖项的自定义映像。
SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 7 月 15 日
SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持
AMIs 包括以下更新:
SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 6 月 9 日
SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持
SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 5 月 22 日
AMI 常规更新
SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持
SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 5 月 7 日
SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 4 月 28 日
对 K8s 的改进
-
已将 NVIDIA 驱动程序从版本 550.144.03 升级至版本 550.163.01。此次升级旨在解决 2025 年 4 月 NVIDIA GPU 显示屏安全公告
中存在的常见漏洞和漏洞 (CVEs)。
SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持
SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 4 月 18 日
AMI 常规更新
-
适用于亚马逊 EKS 的新 SageMaker HyperPod AMI 1.32.1。
SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持
AMIs 包括以下内容:
SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 2 月 18 日
对 K8s 的改进
-
已将 Nvidia 容器工具包从版本 1.17.3 升级到版本 1.17.4。
-
修复了客户在重启后无法连接到节点的问题。
-
已将 Elastic Fabric Adapter(EFA)版本从 1.37.0 升级至 1.38.0。
-
EFA 现在包含 AWS OFI NCCL 插件,该插件位于
/opt/amazon/ofi-nccl目录中,而不是原始路径中。/opt/aws-ofi-nccl/如果您需要更新LD_LIBRARY_PATH环境变量,请务必修改路径以指向 OFI NCCL 插件的新/opt/amazon/ofi-nccl位置。 -
从这些 DLAMIs软件包中移除了 emacs 软件包。您可以从 GNU emac 安装 emacs。
SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持
SageMaker HyperPod AMI 在亚马逊 EKS 上发布:2025 年 1 月 22 日
AMI 常规更新
-
适用于亚马逊 EKS 的新 SageMaker HyperPod AMI 1.31.2。
SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持
AMIs 包括以下内容:
SageMaker HyperPod 亚马逊 EKS 的 AMI 发布:2024 年 12 月 21 日
SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持
AMIs 包括以下内容:
SageMaker HyperPod 亚马逊 EKS 的 AMI 发布:2024 年 12 月 13 日
SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 升级
-
已将 SSM Agent 更新至版本
3.3.1311.0。
SageMaker HyperPod 亚马逊 EKS 的 AMI 发布:2024 年 11 月 24 日
AMI 常规更新
-
已在
MEL(墨尔本)区域发布。 -
将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:
-
Kubernetes:2024-11-01。
-
SageMaker HyperPod 亚马逊 EKS 的 AMI 发布:2024 年 11 月 15 日
SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持
AMIs 包括以下内容:
SageMaker HyperPod 亚马逊 EKS 的 AMI 发布:2024 年 11 月 11 日
AMI 常规更新
-
使用亚马逊 SageMaker HyperPod EKS 版本 1.28.13、1.29.8、1.30.4 更新了 DLAMI。
SageMaker HyperPod 亚马逊 EKS 的 AMI 发布:2024 年 10 月 21 日
AMI 常规更新
-
将 SageMaker HyperPod 基础 DLAMI 更新至以下版本:
-
Amazon EKS:1.28.11、1.29.6、1.30.2。
-
SageMaker HyperPod 亚马逊 EKS 的 AMI 发布:2024 年 9 月 10 日
SageMaker HyperPod 适用于亚马逊 EKS 的 DLAMI 支持
AMIs 包括以下内容: