本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker HyperPod 版本備註
本主題涵蓋追蹤 Amazon SageMaker HyperPod 更新、修正和新功能的版本備註。如果您正在尋找 Amazon SageMaker HyperPod 的一般功能發行、更新和改進,您可能會發現此頁面很有幫助。
HyperPod AMI 版本會個別記錄,以包含重要元件的資訊,包括一般 AMI 發行、版本和相依性。如果您要尋找這些與 HyperPod AMI 發行相關的資訊,請參閱 Amazon SageMaker HyperPod AMI。
SageMaker HyperPod 版本備註:2025 年 11 月 7 日
SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能
SageMaker HyperPod 版本備註:2025 年 9 月 29 日
SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能
-
已發行適用於 Amazon EKS 1.33 的新 SageMaker HyperPod AMI。如需詳細資訊,Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 9 月 29 日。
重要
此版本預設會啟用動態資源配置 Beta Kubernetes API。
-
此 API 可改善需要 GPUs 等資源的排程和監控工作負載。
-
此 API 是由開放原始碼 Kubernetes 社群開發,未來 Kubernetes 版本可能會變更。使用 API 之前,請檢閱 Kubernetes 文件
並了解其如何影響您的工作負載。
-
-
HyperPod 不會發佈您遷移至 AL2023 的 HyperPod Amazon Linux 2 AMI for Kubernetes 1.33.AWSrecommends。如需詳細資訊,請參閱從 Amazon Linux 2 升級到 AL2023。
如需詳細資訊,請參閱 Kubernetes v1.33。
SageMaker HyperPod 版本備註:2025 年 8 月 4 日
SageMaker HyperPod 為 EKS 協同運作發行新的公有 AMI。公有 AMI 可以自行使用,也可以用來建立自訂 AMI。如需公有 AMI 的詳細資訊,請參閱公有 AMI 版本。如需建立自訂 AMI 的詳細資訊,請參閱SageMaker HyperPod 叢集的自訂 Amazon Machine Image (AMI)。
SageMaker HyperPod 版本備註:2025 年 7 月 31 日
SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能和改進
-
發行新的 AMI,將 EKS 叢集的作業系統從 Amazon Linux 2 更新至 Amazon Linux 2023。主要升級包括 Linux Kernel 6.1、Python 3.10、NVIDIA 驅動程式 560.35.03,以及取代 YUM 的 DNF 套件管理員。
重要
從 Amazon Linux 2 到 AL2023 的更新引入了重大變更,可能會影響與專為 AL2 設計之軟體和組態的相容性。強烈建議在完全升級您的叢集之前,先使用 AL2023 測試您的應用程式。
如需新 AMI 以及如何升級叢集的詳細資訊,請參閱 適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 7 月 31 日。
SageMaker HyperPod 版本備註:2025 年 5 月 13 日
SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能和改進
-
已為 Slurm 叢集發行支援 Ubuntu 22.04 LTS 的更新 AMI。此版本包含數個系統和軟體元件升級,以提供改善的效能、更新的功能和增強的安全性。
重要
從 Ubuntu 20.04 LTS 更新至 Ubuntu 22.04 LTS 所引入的變更可能會影響與專為 Ubuntu 20.04 設計之軟體和組態的相容性。
如需詳細資訊,請參閱:
SageMaker HyperPod 版本備註:2025 年 5 月 1 日
SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能
-
已新增 EKS 協調叢集的用量報告,允許組織跨團隊專案或部門實作透明的用量型成本分配。此功能補充 HyperPod 的任務治理功能,以確保共用多租用戶 AI/ML 環境中的公平成本分配。如需詳細資訊,請參閱在 HyperPod 中報告運算用量。
SageMaker HyperPod 版本備註:2025 年 4 月 28 日
SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 和 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能和改進
-
已將 NVIDIA 驅動程式從版本 550.144.03 升級至 550.163.01。此升級是為了解決 2025 年 4 月 NVIDIA GPU 顯示器安全公告
中存在的 Common Vulnerabilities and Exposures (CVE)。
如需相關 AMI 版本的相關資訊,請參閱 適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 4 月 28 日 和 適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 4 月 28 日。
SageMaker HyperPod 版本備註:2025 年 4 月 18 日
SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能
-
已發行適用於 Amazon EKS 1.32.1 的新 SageMaker HyperPod AMI。如需詳細資訊,請參閱適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 4 月 18 日。
SageMaker HyperPod 版本備註:2025 年 4 月 10 日
SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能和改進
-
新增了直接喜好設定最佳化 (DPO) 配方教學課程,以進行 SageMaker HyperPod 與 Slurm 協同運作。此微調教學提供逐步指引,以在 GPU 驅動的 SageMaker HyperPod Slurm 叢集上使用 DPO 方法最佳化模型對齊。如需詳細資訊,請參閱HyperPod Slurm 叢集 DPO 教學課程 (GPU)。
SageMaker HyperPod 版本備註:2025 年 4 月 3 日
SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 和 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能和改進
-
新增了用於部署 SageMaker HyperPod 叢集的快速入門頁面。此頁面利用 SageMaker HyperPod 專用研討會的簡化設定工作流程,並使用預先建置的AWS CloudFormation範本自動化部署。它支援基礎設施喜好設定,例如 Slurm 或 Amazon EKS,以便輕鬆設定和部署基準叢集。
-
SageMaker HyperPod 現在支援 Slurm 和 Amazon EKS 叢集的下列執行個體類型。
-
新的執行個體類型:I3en、M7i、R7i 執行個體。如需受支援執行個體的完整清單,請參閱
ClusterInstanceGroupDetails中的InstanceType欄位。
-
SageMaker HyperPod 版本備註:2025 年 3 月 16 日
SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 和 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能和改進
-
在
CreateCluster和UpdateClusterAPI 操作中新增了下列 IAM 條件金鑰,以進行更精細的存取控制。條件金鑰 Description sagemaker:InstanceTypes根據指定的執行個體類型控制存取。 sagemaker:VpcSubnets將叢集建立或更新限制在特定的 Amazon VPC 子網路。 sagemaker:VpcSecurityGroupIds根據 Amazon VPC 安全群組 ID 管理存取。
SageMaker HyperPod 版本備註:2025 年 2 月 20 日
SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 和 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能和改進
SageMaker HyperPod 版本備註:2025 年 2 月 18 日
SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 和 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能
-
此版本的 SageMaker HyperPod 包含來自 Nvidia 容器工具組的安全更新 (從 1.17.3 版到 1.17.4 版)。如需詳細資訊,請參閱 v1.17.4 版本備註
。 注意
對於 Nvidia 容器工具組 1.17.4 版中的所有容器工作負載,現已停用 CUDA 相容性程式庫的掛載。為了確保與容器工作流程上的多個 CUDA 版本相容,請更新您的
LD_LIBRARY_PATH以包含您的 CUDA 相容性程式庫。您可以在如果您使用 CUDA 相容性層中找到特定步驟。
如需相關 AMI 版本的相關資訊,請參閱 適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 2 月 18 日 和 適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 2 月 18 日。
SageMaker HyperPod 版本備註:2025 年 2 月 6 日
SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 和 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能和改進
-
增強型 SageMaker HyperPod 多 AZ 支援:您可以為叢集內的個別執行個體群組指定不同的子網路和安全群組,跨不同的可用區域切割。如需 SageMaker HyperPod 多可用區支援的詳細資訊,請參閱 跨多個 AZ 設定 SageMaker HyperPod 叢集。
SageMaker HyperPod 版本備註:2025 年 1 月 22 日
AMI 版本
SageMaker HyperPod 版本備註:2025 年 1 月 9 日
SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 和 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能和改進
-
新增了 IPv6 支援:使用已啟用 IPv6 的 VPC 和子網路進行設定時,叢集可以使用 IPv6 定址。如需詳細資訊,請參閱使用自訂 Amazon VPC 設定 SageMaker HyperPod。
SageMaker HyperPod 版本備註:2024 年 12 月 21 日
SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 和 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能
-
SageMaker HyperPod 現在支援 Slurm 和 Amazon EKS 叢集的下列執行個體類型。
-
新的執行個體類型:C6gn、C6i、M6i、R6i。
-
新的 Trainium 執行個體類型:Trn1 和 Trn1n。
-
改進
-
增強了 Slurm 中斷任務時的錯誤記錄可見性,並防止在 Slurm 啟動的任務取消期間不必要的任務步驟終止。
-
為 Slurm 和 Amazon EKS 叢集更新了 p5en 的基本 DLAMI。
AMI 版本
SageMaker HyperPod 版本備註:2024 年 12 月 13 日
SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 和 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能
-
SageMaker HyperPod 發行一組 Amazon CloudWatch 指標,以監控 SageMaker HyperPod Slurm 叢集的運作狀態和效能。這些指標與 CPU、GPU、記憶體使用率和叢集執行個體資訊相關,例如節點計數和失敗的節點。此監控功能預設為啟用,並且您可以在
/aws/sagemaker/ClustersCloudWatch 命名空間下存取這些指標。您也可以根據這些指標設定 CloudWatch 警示,以主動偵測和解決其 Slurm 型 HyperPod 叢集內的潛在問題。如需詳細資訊,請參閱Amazon SageMaker HyperPod Slurm 指標。
AMI 版本
SageMaker HyperPod 版本備註:2024 年 11 月 24 日
SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 和 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能
-
新增了跨多個可用區域設定 SageMaker HyperPod 叢集的支援。如需 SageMaker HyperPod 多可用區支援的詳細資訊,請參閱 跨多個 AZ 設定 SageMaker HyperPod 叢集。
AMI 版本
SageMaker HyperPod 版本備註:2024 年 11 月 15 日
SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 和 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。如需詳細資訊,請參閱 和 適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2024 年 11 月 15 日。
新功能和改進
-
為 Amazon EKS 和 Slurm 協調的叢集新增了 trn1 和 trn1n 執行個體類型的支援。
-
改善了 Slurm 叢集的日誌管理:
-
實作了日誌輪換:每週或每日,根據大小而定。
-
將日誌保留時間設定為 3 週。
-
已壓縮日誌來減少儲存影響。
-
繼續將日誌上傳至 CloudWatch 進行長期保留。
注意
有些日誌仍存放在 syslog 中。
-
-
已調整 Fluent Bit 設定,以防止包含長行的檔案出現追蹤問題。
錯誤修正
-
防止組態檔案
slurm.config中 Slurm 控制器節點更新出現意外截斷。
AMI 版本
SageMaker HyperPod 版本備註:2024 年 11 月 11 日
SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 和 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能
-
SageMaker HyperPod AMI 現在支援 G6e 執行個體類型。
AMI 版本
SageMaker HyperPod 版本備註:2024 年 10 月 31 日
SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 和 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能
-
為 Amazon EKS 和 Slurm 協調叢集,在執行個體群組層級和執行個體層級新增了縮減 SageMaker HyperPod 叢集。如需縮減 Amazon EKS 叢集的詳細資訊,請參閱 縮減 SageMaker HyperPod 叢集。如需縮減 Slurm 叢集的詳細資訊,請參閱在使用 管理 SageMaker HyperPod Slurm 叢集AWS CLI中的「縮減叢集」。
-
SageMaker HyperPod 現在支援 Amazon EKS 和 Slurm 協調叢集的 P5e 執行個體類型。
SageMaker HyperPod 版本備註:2024 年 10 月 21 日
SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 和 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能
-
SageMaker HyperPod 現在支援 Slurm 和 Amazon EKS 叢集的 P5e[n]、G6、Gr6 和 Trn2[n] 執行個體類型。
AMI 版本
SageMaker HyperPod 版本備註:2024 年 9 月 10 日
SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 和 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能
-
在 SageMaker HyperPod 中新增了 Amazon EKS 支援。如需詳細資訊,請參閱 使用 Amazon EKS 協作 SageMaker HyperPod 叢集。
-
新增透過 CloudFormation和 Terraform 管理 SageMaker HyperPod 叢集的支援。如需透過 管理 HyperPod 叢集的詳細資訊CloudFormation,請參閱適用於 的 CloudFormation 文件
AWS::SageMaker::Cluster。若要了解如何透過 Terraform 管理 HyperPod 叢集,請參閱awscc_sagemaker_cluster的 Terraform 文件。
AMI 版本
SageMaker HyperPod 版本備註:2024 年 8 月 20 日
SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能
-
增強了 SageMaker HyperPod 自動繼續功能,為與一般資源 (GRES) 連接的 Slurm 節點擴充彈性功能。
當一般資源 (GRES)
連接到 Slurm 節點時,Slurm 通常不允許節點配置的變更,例如取代節點,因此不允許繼續失敗的任務。除非明確禁止,否則 HyperPod 自動繼續功能會自動將與啟用 GRES 的節點相關聯的任何錯誤任務重新排入佇列。此程序涉及停止任務、將其放回任務佇列,然後從頭重新啟動任務。
其他變更
-
已在 SageMaker HyperPod AMI 中預先封裝
slurmrestd。 -
已在
slurm.conf中將ResumeTimeout和UnkillableStepTimeout的預設值從 60 秒變更為 300 秒,以改善系統回應能力和任務處理。 -
針對 NVIDIA 資料中心 GPU 管理員 (DCGM) 和 NVIDIA 系統管理介面 (nvidia-smi) 的運作狀態檢查進行了次要改善。
錯誤修正
-
HyperPod 自動繼續外掛程式可以使用閒置節點來繼續任務。
SageMaker HyperPod 版本備註:2024 年 6 月 20 日
SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能
-
新增了將額外儲存體連接至 SageMaker HyperPod 叢集執行個體的新功能。透過此功能,您可以在叢集建立或更新程序進行期間,透過 SageMaker HyperPod 主控台或
CreateCluster和UpdateClusterAPI,在執行個體群組組態層級設定補充儲存體。額外的 EBS 磁碟區會連接到 SageMaker HyperPod 叢集內的每個執行個體,並掛載到/opt/sagemaker。若要進一步了解如何在 SageMaker HyperPod 叢集中實作它,請參閱以下頁面上的更新文件。請注意,您需要更新 HyperPod 叢集軟體才能使用此功能。修補 HyperPod 叢集軟體後,您可以透過新增執行個體群組,將此功能用於 2024 年 6 月 20 日之前建立的現有 SageMaker HyperPod 叢集。對於 2024 年 6 月 20 日之後建立的任何 SageMaker HyperPod 叢集,此功能完全有效。
升級步驟
-
執行下列命令來呼叫 UpdateClusterSoftware API,以使用最新的 HyperPod DLAMI 更新現有的 HyperPod 叢集。若要尋找更多指示,請參閱 更新叢集的 SageMaker HyperPod 平台軟體。
重要
在執行此 API 之前備份您的工作。修補程序會將根磁碟區取代為更新的 AMI,這表示先前存放在執行個體根磁碟區中的資料將會遺失。請確定您將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。如需詳細資訊,請參閱使用 SageMaker HyperPod 提供的備份指令碼。
aws sagemaker update-cluster-software --cluster-nameyour-cluster-name注意
請注意,您應該執行 AWS CLI命令來更新 HyperPod 叢集。目前無法透過 SageMaker HyperPod 主控台 UI 更新 HyperPod 軟體。
SageMaker HyperPod 版本備註:2024 年 4 月 24 日
SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
錯誤修正
-
已修正
ClusterInstanceGroupSpecificationAPI 中ThreadsPerCore參數的錯誤。透過此修正,CreateCluster和UpdateClusterAPI 可透過ThreadsPerCore適當取得並套用使用者輸入。此修正對 2024 年 4 月 24 日之後建立的 HyperPod 叢集有效。如果您遇到此錯誤的問題,並想要將此修正套用至您的叢集,則需要建立新的叢集。確定您在移至新叢集時,遵循使用 SageMaker HyperPod 提供的備份指令碼中的指示備份和還原您的工作。
SageMaker HyperPod 版本備註:2024 年 3 月 27 日
SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
HyperPod 軟體修補程式
HyperPod 服務團隊會透過 SageMaker HyperPod DLAMI 分發軟體修補程式。請參閱下列有關最新 HyperPod DLAMI 的詳細資訊。
-
在此 HyperPod DLAMI 版本中,Slurm 是使用 REST 服務 (
slurmestd) 建置的,並支援 JSON、YAML 和 JWT。 -
已將 Slurm
升級至 v23.11.3。
改進
-
已將自動繼續服務逾時增加到 60 分鐘。
-
已改善執行個體取代程序,使其不會重新啟動 Slurm 控制器。
-
已改善執行生命週期指令碼時出現的錯誤訊息,例如下載錯誤和執行個體啟動時的執行個體運作狀態檢查錯誤。
錯誤修正
-
已修正 chrony 服務導致時間同步問題的錯誤。
-
已修正剖析
slurm.conf的錯誤。 -
已修正 NVIDIA
go-dcgm程式庫的問題。
SageMaker HyperPod 版本備註:2024 年 3 月 14 日
SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
改進
-
HyperPod 現在可適當支援傳遞透過
provisioning_parameters.json提供的分割區名稱,並根據提供的輸入適當地建立分割區。如需provisioning_parameters.json的詳細資訊,請參閱 SageMaker HyperPod 表單 和 使用生命週期指令碼自訂 SageMaker HyperPod 叢集。
AMI 版本
SageMaker HyperPod 版本備註:2024 年 2 月 15 日
SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能
-
新增了新的
UpdateClusterSoftwareAPI 進行 SageMaker HyperPod 安全性修補。當安全性修補程式變成可用時,我們建議您執行aws sagemaker update-cluster-software --cluster-name來更新帳戶中現有的 SageMaker HyperPod 叢集。若要追蹤未來的安全性修補程式,請繼續追蹤此 Amazon SageMaker HyperPod 版本備註頁面。若要了解your-cluster-nameUpdateClusterSoftwareAPI 的運作方式,請參閱更新叢集的 SageMaker HyperPod 平台軟體。
SageMaker HyperPod 版本備註:2023 年 11 月 29 日
SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。
新功能
-
於 AWSre:Invent 2023 推出 Amazon SageMaker HyperPod。
AMI 版本