

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 亚马逊 SageMaker HyperPod 发行说明
<a name="sagemaker-hyperpod-release-notes"></a>

本主题涵盖跟踪亚马逊更新、修复和新功能的发行说明 SageMaker HyperPod。如果您正在寻找Amazon的一般功能发布、更新和改进 SageMaker HyperPod，您可能会发现此页面很有帮助。

 HyperPod AMI 版本单独记录在案，包括关键组件的信息，包括常规 AMI 版本、版本和依赖关系。如果您正在寻找与 HyperPod AMI 版本相关的信息，请参阅[亚马逊 SageMaker HyperPod AMI](sagemaker-hyperpod-release-ami.md)。

## SageMaker HyperPod 发布说明：2026 年 4 月 16 日
<a name="sagemaker-hyperpod-release-notes-20260416"></a>

SageMaker HyperPod 为发布以下内容[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)。

**新特征**
+ **灵活的实例组**-您现在可以使用新`InstanceRequirements`参数创建具有多种实例类型的实例组。这支持基于优先级的配置，即首先 HyperPod 尝试配置优先级最高的实例类型，如果容量不可用，则回退到优先级较低的类型。灵活的实例组通过减少所需的实例组数量来简化 Karpenter 的自动缩放配置。每个实例组最多可以指定 20 个实例类型。有关更多信息，请参阅 [灵活的实例组](sagemaker-hyperpod-scaling-eks.md#sagemaker-hyperpod-scaling-eks-flexible-ig)。

## SageMaker HyperPod 发布说明：2026 年 1 月 25 日
<a name="sagemaker-hyperpod-release-notes-20260125"></a>

SageMaker HyperPod 为发布以下内容[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)。

**新特征**
+ 发布了适用于亚马逊 EKS 1.34 的新 SageMaker HyperPod AMI。有关更多信息，请参阅 [SageMaker Hyperpod AMI 在亚马逊 EKS 上发布：2026 年 1 月 25 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20260125)。

有关更多信息，请参阅 [Kubernetes](https://kubernetes.io/blog/2025/08/27/kubernetes-v1-34-release/) v1.34。

## SageMaker HyperPod 发布说明：2025 年 11 月 7 日
<a name="sagemaker-hyperpod-release-notes-20251107"></a>

SageMaker HyperPod 为发布以下内容[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)。

**新特征**
+ 升级了安全补丁[SageMaker HyperPod AMI 在亚马逊 EKS 上发布：2025 年 11 月 7 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20251107)。

## SageMaker HyperPod 发布说明：2025 年 9 月 29 日
<a name="sagemaker-hyperpod-release-notes-20250929"></a>

SageMaker HyperPod 为发布以下内容[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)。

**新特征**
+ 发布了适用于亚马逊 EKS 1.33 的新 SageMaker HyperPod AMI。有关更多信息，请参阅 [SageMaker HyperPod AMI 在亚马逊 EKS 上发布：2025 年 9 月 29 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20250929)。
**重要**  
在此版本中，动态资源分配测试版 Kubernetes API 默认处于启用状态。  
此 API 改进了调度和监控需要资源的工作负载，例如 GPUs。
此 API 是由开源 Kubernetes 社区开发的，在未来的 Kubernetes 版本中可能会发生变化。在使用 API 之前，请查看 [Kubernetes 文档](https://kubernetes.io/docs/concepts/scheduling-eviction/dynamic-resource-allocation/)并了解它如何影响您的工作负载。
HyperPod 不会发布适用于 Kubernetes 1.33 的 HyperPod 亚马逊 Linux 2 AMI。 AWS 建议您迁移到 AL2023。有关更多信息，请参阅[从 Amazon Linux 2 升级到 AL2023](https://docs.aws.amazon.com/eks/latest/userguide/al2023.html)。

有关更多信息，请参阅 [Kubernetes](https://kubernetes.io/blog/2025/04/23/kubernetes-v1-33-release/) v1.33。

## SageMaker HyperPod 发布说明：2025 年 8 月 4 日
<a name="sagemaker-hyperpod-release-notes-20250804"></a>

SageMaker HyperPod AMIs 为 EKS 编排发布了新的公开版。Public AMIs 可以单独使用，也可以用来创建自定义 AMIs。有关公众的更多信息 AMIs，请参阅[公有 AMI 版本](sagemaker-hyperpod-release-public-ami.md)。有关创建自定义 AMI 的更多信息，请参阅 [用于 SageMaker HyperPod 集群的自定义 Amazon 系统映像 (AMIs)](hyperpod-custom-ami-support.md)。

## SageMaker HyperPod 发布说明：2025 年 7 月 31 日
<a name="sagemaker-hyperpod-release-notes-20250731"></a>

SageMaker HyperPod 为发布以下内容[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)。

**新功能和改进**
+ 发布了一个新 AMI，将 EKS 集群的操作系统从 Amazon Linux 2 更新至 Amazon Linux 2023。主要升级内容包括：Linux 内核 6.1、Python 3.10、NVIDIA 驱动程序 560.35.03，以及用于替代 YUM 的 DNF 软件包管理器。
**重要**  
Amazon Linux 2 的更新 AL2023 引入了重大更改，这些更改可能会影响与专为之设计的软件和配置的兼容性 AL2。我们强烈建议您在完全升级集群 AL2023 之前测试您的应用程序。

  有关新 AMI 以及如何升级集群的更多信息，请参阅 [SageMaker HyperPod AMI 在亚马逊 EKS 上发布：2025 年 7 月 31 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20250731)。

## SageMaker HyperPod 发布说明：2025 年 5 月 13 日
<a name="sagemaker-hyperpod-release-notes-20250513"></a>

SageMaker HyperPod 为发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)。

**新功能和改进**
+ 发布了一个更新后的 AMI，它支持适用于 Slurm 集群的 Ubuntu 22.04 LTS。此版本包含多项系统和软件组件升级，旨在提升性能、更新功能并增强安全性。
**重要**  
从 Ubuntu 20.04 LTS 更新至 Ubuntu 22.04 LTS 会引入重大变更，这些变更可能会影响与为 Ubuntu 20.04 设计的软件和配置的兼容性。

  有关更多信息，请参阅:
  + [Ubuntu 22.04 AMI 中的关键更新](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-ami-slurm-ubuntu22-updates)
  + [升级至 Ubuntu 22.04 AMI](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-ami-slurm-ubuntu22-upgrade)
  + [排查升级失败问题](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-ami-slurm-ubuntu22-troubleshoot)

## SageMaker HyperPod 发布说明：2025 年 5 月 1 日
<a name="sagemaker-hyperpod-release-notes-20250501"></a>

SageMaker HyperPod 为发布以下内容[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)。

**新特征**
+ 新增针对由 EKS 编排的集群的使用情况报告功能，这使组织能够在团队、项目或部门间实现透明的、基于使用情况的成本分配。此功能补充 HyperPod了 “[任务治理](sagemaker-hyperpod-eks-operate-console-ui-governance.md)” 功能，可确保在共享的多租户 AI/ML 环境中实现公平的成本分配。有关更多信息，请参阅[中的报告计算使用情况 HyperPod](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-usage-reporting.html)。

## SageMaker HyperPod 发布说明：2025 年 4 月 28 日
<a name="sagemaker-hyperpod-release-notes-20250428"></a>

SageMaker HyperPod 为[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)和发布以下内容[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)。

**新功能和改进**
+ 已将 NVIDIA 驱动程序从版本 550.144.03 升级至版本 550.163.01。此次升级旨在解决 [2025 年 4 月 NVIDIA GPU 显示屏安全公告](https://nvidia.custhelp.com/app/answers/detail/a_id/5630)中存在的常见漏洞和漏洞 (CVEs)。

有关相关 AMI 版本的信息，请参阅 [SageMaker HyperPod AMI 在 Slurm 上发布：2025 年 4 月 28 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20250428)和 [SageMaker HyperPod AMI 在亚马逊 EKS 上发布：2025 年 4 月 28 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20250428)。

## SageMaker HyperPod 发布说明：2025 年 4 月 18 日
<a name="sagemaker-hyperpod-release-notes-20250418"></a>

SageMaker HyperPod 为发布以下内容[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)。

**新特征**
+ 发布了适用于亚马逊 EKS 1.32.1 的新 SageMaker HyperPod AMI。有关更多信息，请参阅 [SageMaker HyperPod AMI 在亚马逊 EKS 上发布：2025 年 4 月 18 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20250418)。

## SageMaker HyperPod 发布说明：2025 年 4 月 10 日
<a name="sagemaker-hyperpod-release-notes-20250410"></a>

SageMaker HyperPod 为发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)。

**新功能和改进**
+ 添加了 SageMaker HyperPod使用 Slurm 编排的直接偏好优化 (DPO) 配方教程。本微调教程提供了在基于 GPU SageMaker HyperPod 的 Slurm 集群上使用 DPO 方法优化模型对齐的 step-by-step指导。有关更多信息，请参阅 [HyperPod Slurm cluster DPO 教程 (GPU)](hyperpod-gpu-slurm-dpo-tutorial.md)。

## SageMaker HyperPod 发布说明：2025 年 4 月 3 日
<a name="sagemaker-hyperpod-release-notes-20250403"></a>

SageMaker HyperPod 为[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)和发布以下内容[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)。

**新功能和改进**
+ 添加了用于部署 SageMaker HyperPod 集群的[快速入门](sagemaker-hyperpod-quickstart.md)页面。该页面利用了专业研讨会的简化设置工作流程，并使用预先 AWS CloudFormation 构建 SageMaker HyperPod的模板自动进行部署。它支持 Slurm 或 Amazon EKS 等基础设施首选项，以便轻松配置和部署基准集群。
+ SageMaker HyperPod 现在，Slurm 和 Amazon EKS 集群都支持以下实例类型。
  + 新实例类型：I3en、M7i、R7i 实例。有关支持的实例的完整列表，请参阅 `[ClusterInstanceGroupDetails](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupDetails.html)` 中的 `InstanceType` 字段。

## SageMaker HyperPod 发布说明：2025 年 3 月 16 日
<a name="sagemaker-hyperpod-release-notes-20250316"></a>

SageMaker HyperPod 为[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)和发布以下内容[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)。

**新功能和改进**
+ 新增了以下 IAM 条件键，用于在 [https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_CreateCluster.html](https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_CreateCluster.html) 和 [https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_UpdateCluster.html](https://docs.aws.amazon.com//sagemaker/latest/APIReference/API_UpdateCluster.html) API 操作中实现更精细的访问控制。    
[See the AWS documentation website for more details](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/sagemaker-hyperpod-release-notes.html)

## SageMaker HyperPod 发布说明：2025 年 2 月 20 日
<a name="sagemaker-hyperpod-release-notes-20250220"></a>

SageMaker HyperPod 为[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)和发布以下内容[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)。

**新功能和改进**
+ 增加了对从 SageMaker HyperPod 集群中删除实例组的支持。有关更多信息，请参阅从由 EKS 编排的集群中[删除实例组](smcluster-scale-down.md#smcluster-remove-instancegroup)以及为由 Slurm 编排的集群[缩减集群](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-scale-down)。

## SageMaker HyperPod 发布说明：2025 年 2 月 18 日
<a name="sagemaker-hyperpod-release-notes-20250218"></a>

SageMaker HyperPod 为[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)和发布以下内容[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)。

**新特征**
+ 此版本 SageMaker HyperPod 包含来自 Nvidia 容器工具包的安全更新（从 1.17.3 版到 1.17.4 版）。有关更多信息，请参阅 [v1.17.4 发行说明](https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4)。
**注意**  
对于 Nvidia 容器工具包版本 1.17.4 中的所有容器工作负载，现已禁止挂载 CUDA 兼容性库。要确保与容器工作流中的多个 CUDA 版本兼容，请更新 `LD_LIBRARY_PATH` 以包含 CUDA 兼容性库。您可以在[如果您使用 CUDA 兼容层](inference-gpu-drivers.md#collapsible-cuda-compat)中找到具体步骤。

有关相关 AMI 版本的信息，请参阅 [SageMaker HyperPod AMI 在 Slurm 上发布：2025 年 2 月 18 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20250218)和 [SageMaker HyperPod AMI 在亚马逊 EKS 上发布：2025 年 2 月 18 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20250218)。

## SageMaker HyperPod 发布说明：2025 年 2 月 6 日
<a name="sagemaker-hyperpod-release-notes-20250206"></a>

SageMaker HyperPod 为[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)和发布以下内容[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)。

**新功能和改进**
+ 增强的 SageMaker HyperPod 多可用区支持：您可以为集群中的各个实例组指定不同的子网和安全组，跨越不同的可用区。有关 SageMaker HyperPod多可用区支持的更多信息，请参阅[跨多个 SageMaker HyperPod 集群设置 AZs](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-multiple-availability-zones)。

## SageMaker HyperPod 发布说明：2025 年 1 月 22 日
<a name="sagemaker-hyperpod-release-notes-20250122"></a>

**AMI 版本**
+ [SageMaker HyperPod AMI 在亚马逊 EKS 上发布：2025 年 1 月 22 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20250122)

## SageMaker HyperPod 发布说明：2025 年 1 月 9 日
<a name="sagemaker-hyperpod-release-notes-20250109"></a>

SageMaker HyperPod 为[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)和发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)。

**新功能和改进**
+ 新增 IPv6 支持：如果配置了 IPv6启用了 VPC 和子网，则集群可以使用 IPv6 寻址。有关更多信息，请参阅 [SageMaker HyperPod 使用自定义 Amazon VPC 进行设置](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-optional-vpc)。

## SageMaker HyperPod 发布说明：2024 年 12 月 21 日
<a name="sagemaker-hyperpod-release-notes-20241221"></a>

SageMaker HyperPod 为[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)和发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)。

**新特征**
+ SageMaker HyperPod 现在，Slurm 和 Amazon EKS 集群都支持以下实例类型。
  + 新实例类型：C6gn、C6i、M6i、R6i。
  + 新 Trainium 实例类型：Trn1 和 Trn1n。

**改进**
+ 增强了 Slurm 中断作业时的错误日志记录可见性，并防止了在 Slurm 发起的作业取消过程中不必要的作业步骤终止。
+ 为 Slurm 集群和 Amazon EKS 集群更新了适用于 p5en 的基础 DLAMI。

**AMI 版本**
+ [SageMaker HyperPod AMI 在 Slurm 上发布：2024 年 12 月 21 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20241221)
+ [SageMaker HyperPod 亚马逊 EKS 的 AMI 发布：2024 年 12 月 21 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20241221)

## SageMaker HyperPod 发布说明：2024 年 12 月 13 日
<a name="sagemaker-hyperpod-release-notes-20241213"></a>

SageMaker HyperPod 为[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)和发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)。

**新特征**
+ SageMaker HyperPod 发布了一组 Amazon CloudWatch 指标，用于监控 SageMaker HyperPod Slurm 集群的运行状况和性能。这些指标与 CPU、GPU、内存利用率以及集群实例信息（例如节点数和故障节点）有关。默认情况下，此监控功能处于启用状态，并且可以在`/aws/sagemaker/Clusters` CloudWatch 命名空间下访问指标。您还可以根据这些指标设置 CloudWatch 警报，以主动检测和解决基于 SLURM HyperPod 的集群中的潜在问题。有关更多信息，请参阅 [Amazon SageMaker HyperPod Slurm 指标](smcluster-slurm-metrics.md)。

**AMI 版本**
+ [SageMaker HyperPod 亚马逊 EKS 的 AMI 发布：2024 年 12 月 13 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20241213)

## SageMaker HyperPod 发布说明：2024 年 11 月 24 日
<a name="sagemaker-hyperpod-release-notes-20241124"></a>

SageMaker HyperPod 为[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)和发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)。

**新特征**
+ 增加了对跨多个可用区配置 SageMaker HyperPod 集群的支持。有关 SageMaker HyperPod 多可用区支持的更多信息，请参阅[跨多个 SageMaker HyperPod 集群设置 AZs](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-multiple-availability-zones)。

**AMI 版本**
+ [SageMaker HyperPod AMI 在 Slurm 上发布：2024 年 11 月 24 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20241124)
+ [SageMaker HyperPod 亚马逊 EKS 的 AMI 发布：2024 年 11 月 24 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20241124)

## SageMaker HyperPod 发布说明：2024 年 11 月 15 日
<a name="sagemaker-hyperpod-release-notes-20241115"></a>

SageMaker HyperPod 为[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)和发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)。有关更多信息，请参阅 [SageMaker HyperPod 亚马逊 EKS 的 AMI 发布：2024 年 11 月 15 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20241115)。

**新功能和改进**
+ 为由 Amazon EKS 和 Slurm 编排的集群，新增了对 trn1 和 trn1n 实例类型的支持。
+ 改进了 Slurm 集群的日志管理：
  +  实现了日志轮换：可基于日志大小按周或按日执行。
  +  将日志保留时间设置为 3 个星期。
  +  已压缩日志来降低存储影响。
  +  继续将日志上传到， CloudWatch 以便长期保留。
**注意**  
一些日志仍存储在系统日志中。
+ 调整了 Fluent Bit 设置，以防止在处理包含长行内容的文件时出现跟踪问题。

**错误修复**
+ 已防止在配置文件 `slurm.config` 中更新 Slurm 控制器节点时出现意外截断的问题。

**AMI 版本**
+ [SageMaker HyperPod AMI 在 Slurm 上发布：2024 年 11 月 15 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20241115)
+ [SageMaker HyperPod 亚马逊 EKS 的 AMI 发布：2024 年 11 月 15 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20241115)

## SageMaker HyperPod 发布说明：2024 年 11 月 11 日
<a name="sagemaker-hyperpod-release-notes-20241111"></a>

SageMaker HyperPod 为[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)和发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)。

**新特征**
+ SageMaker HyperPod AMI 现在支持 G6e 实例类型。

**AMI 版本**
+ [SageMaker HyperPod AMI 在 Slurm 上发布：2024 年 11 月 11 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20241111)
+ [SageMaker HyperPod 亚马逊 EKS 的 AMI 发布：2024 年 11 月 11 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20241111)

## SageMaker HyperPod 发布说明：2024 年 10 月 31 日
<a name="sagemaker-hyperpod-release-notes-20241031"></a>

SageMaker HyperPod 为[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)和发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)。

**新特征**
+ 添加了在 Amazon EKS 和 Slurm 编排 SageMaker HyperPod 集群的实例组级别和实例级别缩小集群规模。有关缩减 Amazon EKS 集群的更多信息，请参阅[缩小 SageMaker HyperPod 集群规模](smcluster-scale-down.md)。有关缩减 Slurm 集群的更多信息，请参阅[使用管理 SageMaker HyperPod Slurm 集群 AWS CLI](sagemaker-hyperpod-operate-slurm-cli-command.md)中的*缩减集群*。
+ SageMaker HyperPod 现在支持 Amazon EKS 和 Slurm 编排集群的 P5e 实例类型。

## SageMaker HyperPod 发布说明：2024 年 10 月 21 日
<a name="sagemaker-hyperpod-release-notes-20241021"></a>

SageMaker HyperPod 为[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)和发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)。

**新特征**
+ SageMaker HyperPod 现在支持 Slurm 和 Amazon EKS 集群的 p5e [n]、G6、Gr6 和 Trn2 [n] 实例类型。

**AMI 版本**
+ [SageMaker HyperPod AMI 在 Slurm 上发布：2024 年 10 月 21 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20241021)
+ [SageMaker HyperPod 亚马逊 EKS 的 AMI 发布：2024 年 10 月 21 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20241021)

## SageMaker HyperPod 发布说明：2024 年 9 月 10 日
<a name="sagemaker-hyperpod-release-notes-20240910"></a>

SageMaker HyperPod 为[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)和发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群Slurm 编排](sagemaker-hyperpod-slurm.md)。

**新特征**
+ 在中添加了 Amazon EKS 支持 SageMaker HyperPod。要了解更多信息，请参阅[使用 Amazon EKS 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-eks.md)。
+ 增加了对通过 CloudFormation 和 Terraform 管理 SageMaker HyperPod 集群的支持。有关通过管理 HyperPod 集群的更多信息 CloudFormation，[请参阅CloudFormation 文档`AWS::SageMaker::Cluster`](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/aws-resource-sagemaker-cluster.html)。要了解如何通过 Terraform 管理 HyperPod 集群，请参阅 Terra [f](https://registry.terraform.io/providers/hashicorp/awscc/latest/docs/data-sources/sagemaker_cluster) orm 的文档。`awscc_sagemaker_cluster`

**AMI 版本**
+ [SageMaker HyperPod AMI 在 Slurm 上发布：2024 年 9 月 10 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20240910)
+ [SageMaker HyperPod 亚马逊 EKS 的 AMI 发布：2024 年 9 月 10 日](sagemaker-hyperpod-release-ami-eks.md#sagemaker-hyperpod-release-ami-eks-20240910)

## SageMaker HyperPod 发布说明：2024 年 8 月 20 日
<a name="sagemaker-hyperpod-release-notes-20240820"></a>

SageMaker HyperPod 为发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-slurm.md)。

**新特征**
+ 增强了[SageMaker HyperPod 自动恢复功能](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-resiliency-slurm.html#sagemaker-hyperpod-resiliency-slurm-auto-resume)，扩展了与通用 RESources (GRES) 连接的 Slurm 节点的弹性功能。

  当[通用资源（GRES）](https://slurm.schedmd.com/gres.html)连接到 Slurm 节点时，Slurm 通常不允许更改节点分配，如更换节点，因此无法恢复失败的作业。除非明确禁止，否则 HyperPod自动恢复功能会自动将任何与启用 GRES 的节点关联的错误作业重新排队。这个过程包括停止作业，将其放回作业队列，然后从头开始重新启动作业。

**其他更改**
+ 在 SageMaker HyperPod AMI [https://slurm.schedmd.com/slurmrestd.html](https://slurm.schedmd.com/slurmrestd.html)中预先打包。
+ 将 `slurm.conf` 中 `ResumeTimeout` 和 `UnkillableStepTimeout` 的默认值从 60 秒改为 300 秒，以提高系统响应速度和任务处理能力。
+ 对 NVIDIA 数据中心 GPU 管理器（DCGM）和 NVIDIA 系统管理界面（nvidia-smi）的运行状况检查进行了细微改进。

**错误修复**
+  HyperPod 自动恢复插件可以使用空闲节点来恢复作业。

## SageMaker HyperPod 发布说明：2024 年 6 月 20 日
<a name="sagemaker-hyperpod-release-notes-20240620"></a>

SageMaker HyperPod 为发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-slurm.md)。

**新特征**
+ 增加了向 SageMaker HyperPod 集群实例附加额外存储空间的新功能。借助此功能，您可以在集群创建或更新过程中，通过 SageMaker HyperPod 控制台或[https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html)和在实例组配置级别配置补充存储[https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateCluster.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateCluster.html) APIs。额外的 EBS 卷将连接到 SageMaker HyperPod 集群中的每个实例并挂载到。`/opt/sagemaker`要了解有关在 SageMaker HyperPod 集群中实现它的更多信息，请参阅以下页面上更新的文档。
  + [入门 SageMaker HyperPod](smcluster-getting-started-slurm.md)
  + [SageMaker HyperPod Slurm 集群操作](sagemaker-hyperpod-operate-slurm.md)

  请注意，您需要更新 HyperPod 群集软件才能使用此功能。修补 HyperPod 群集软件后，您可以通过添加新的实例组将此功能用于在 2024 年 6 月 20 日之前创建的现有 SageMaker HyperPod 集群。此功能对于 2024 年 6 月 20 日之后创建的任何 SageMaker HyperPod 集群完全有效。

**升级步骤**
+ 运行以下命令调用 [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)API，使用最新的 HyperPod DLAMI 更新现有 HyperPod集群。要了解更多说明，请参阅 [更新集群的 SageMaker HyperPod 平台软件](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software)。
**重要**  
运行此 API 前，请备份您的工作。打补丁过程会用更新的 AMI 替换根卷，这意味着存储在实例根卷中的先前数据将丢失。请务必将实例根卷中的数据备份到 Amazon S3 或 Amazon for Lustre。 FSx 有关更多信息，请参阅 [使用提供的备份脚本 SageMaker HyperPod](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software-backup)。

  ```
   aws sagemaker update-cluster-software --cluster-name {{your-cluster-name}}
  ```
**注意**  
请注意，您应该运行 AWS CLI 命令来更新您的 HyperPod 集群。目前无法通过 SageMaker HyperPod 控制台 UI 更新 HyperPod 软件。

## SageMaker HyperPod 发布说明：2024 年 4 月 24 日
<a name="sagemaker-hyperpod-release-notes-20240424"></a>

SageMaker HyperPod 为发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-slurm.md)。

**错误修复**
+ 修正了 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupSpecification.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ClusterInstanceGroupSpecification.html) API 中 `ThreadsPerCore` 参数的一个错误。API 的错误。修复后，[https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateCluster.html)和[https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateCluster.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateCluster.html) APIs 正确接受并应用用户输入`ThreadsPerCore`。此修复对 2024 年 4 月 24 日之后创建的 HyperPod 集群生效。如果您遇到过此错误，并希望将此修复应用于您的集群，则需要创建一个新集群。请务必按照 [使用提供的备份脚本 SageMaker HyperPod](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software-backup) 中的说明备份和还原您在迁移到新集群时的工作。

## SageMaker HyperPod 发布说明：2024 年 3 月 27 日
<a name="sagemaker-hyperpod-release-notes-20240327"></a>

SageMaker HyperPod 为发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-slurm.md)。

**HyperPod 软件补丁**

 HyperPod 服务团队通过[SageMaker HyperPod DLAMI](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-hyperpod-ami)分发软件补丁。请查看以下有关最新 HyperPod DLAMI 的详细信息。
+ 在此版本的 HyperPod DLAMI 中，Slurm 使用支持 JSON、YAML 和 JWT 的 REST 服务 `slurmestd` () 构建。
+ 将 [Slurm](https://slurm.schedmd.com/documentation.html) 升级至 v23.11.3。

**改进**
+ 自动恢复服务超时时间增至 60 分钟。
+ 改进了实例替换流程，使其不会重新启动 Slurm 控制器。
+ 改进了运行生命周期脚本时的错误信息，如下载错误和实例启动时的实例运行状况检查错误。

**错误修复**
+ 修正了 Chrony 服务的一个错误，该错误导致时间同步问题。
+ 修正了一个解析 `slurm.conf` 的错误。
+ 修正了 [NVIDIA `go-dcgm`](https://github.com/NVIDIA/go-dcgm) 库的一个问题。

## SageMaker HyperPod 发布说明：2024 年 3 月 14 日
<a name="sagemaker-hyperpod-release-notes-20240314"></a>

SageMaker HyperPod 为发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-slurm.md)。

**改进**
+ HyperPod 现在可以正确地支持传递通过提供的分区名称，`provisioning_parameters.json`并根据提供的输入适当创建分区。有关 `provisioning_parameters.json` 的更多信息，请参阅 [使用生命周期脚本自定义 SageMaker HyperPod 集群](sagemaker-hyperpod-lifecycle-best-practices-slurm.md)和 [旧配置：配置\_parameters.json](sagemaker-hyperpod-ref.md#sagemaker-hyperpod-ref-provisioning-forms)。

**AMI 版本**
+ [SageMaker HyperPod AMI 在 Slurm 上发布：2024 年 3 月 14 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20240314)

## SageMaker HyperPod 发布说明：2024 年 2 月 15 日
<a name="sagemaker-hyperpod-release-notes-20240215"></a>

SageMaker HyperPod 为发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-slurm.md)。

**新特征**
+ 添加了用于 SageMaker HyperPod 安全补丁的新 `UpdateClusterSoftware` API。当安全补丁可用时，我们建议您通过运行来更新账户中的现有 SageMaker HyperPod 集群`aws sagemaker update-cluster-software --cluster-name {{your-cluster-name}}`。要跟进 future 的安全补丁，请继续跟踪此 Amazon SageMaker HyperPod 发行说明页面。要了解 `UpdateClusterSoftware` API 的工作原理，请参阅 [更新集群的 SageMaker HyperPod 平台软件](sagemaker-hyperpod-operate-slurm-cli-command.md#sagemaker-hyperpod-operate-slurm-cli-command-update-cluster-software)。

## SageMaker HyperPod 发布说明：2023 年 11 月 29 日
<a name="sagemaker-hyperpod-release-notes-20231129"></a>

SageMaker HyperPod 为发布以下内容[使用 Slurm 编排 SageMaker HyperPod 集群](sagemaker-hyperpod-slurm.md)。

**新特征**
+ 在 re AWS : Inv SageMaker HyperPod ent 2023 上推出了亚马逊。

**AMI 版本**
+ [SageMaker HyperPod AMI 在 Slurm 上发布：2023 年 11 月 29 日](sagemaker-hyperpod-release-ami-slurm.md#sagemaker-hyperpod-release-ami-slurm-20231129)