Amazon SageMaker HyperPod 版本備註 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon SageMaker HyperPod 版本備註

本主題涵蓋追蹤 Amazon SageMaker HyperPod 更新、修正和新功能的版本備註。如果您正在尋找 Amazon SageMaker HyperPod 的一般功能發行、更新和改進,您可能會發現此頁面很有幫助。

HyperPod AMI 版本會個別記錄,以包含重要元件的資訊,包括一般 AMI 發行、版本和相依性。如果您要尋找這些與 HyperPod AMI 發行相關的資訊,請參閱 Amazon SageMaker HyperPod AMI

SageMaker HyperPod 版本備註:2025 年 11 月 7 日

SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能

SageMaker HyperPod 版本備註:2025 年 9 月 29 日

SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能

  • 已發行適用於 Amazon EKS 1.33 的新 SageMaker HyperPod AMI。如需詳細資訊,Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 9 月 29 日

    重要
    • 此版本預設會啟用動態資源配置 Beta Kubernetes API。

      • 此 API 可改善需要 GPUs 等資源的排程和監控工作負載。

      • 此 API 是由開放原始碼 Kubernetes 社群開發,未來 Kubernetes 版本可能會變更。使用 API 之前,請檢閱 Kubernetes 文件並了解其如何影響您的工作負載。

    • HyperPod 不會發佈您遷移至 AL2023 的 HyperPod Amazon Linux 2 AMI for Kubernetes 1.33.AWSrecommends。如需詳細資訊,請參閱從 Amazon Linux 2 升級到 AL2023

如需詳細資訊,請參閱 Kubernetes v1.33。

SageMaker HyperPod 版本備註:2025 年 8 月 4 日

SageMaker HyperPod 為 EKS 協同運作發行新的公有 AMI。公有 AMI 可以自行使用,也可以用來建立自訂 AMI。如需公有 AMI 的詳細資訊,請參閱公有 AMI 版本。如需建立自訂 AMI 的詳細資訊,請參閱SageMaker HyperPod 叢集的自訂 Amazon Machine Image (AMI)

SageMaker HyperPod 版本備註:2025 年 7 月 31 日

SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能和改進

  • 發行新的 AMI,將 EKS 叢集的作業系統從 Amazon Linux 2 更新至 Amazon Linux 2023。主要升級包括 Linux Kernel 6.1、Python 3.10、NVIDIA 驅動程式 560.35.03,以及取代 YUM 的 DNF 套件管理員。

    重要

    從 Amazon Linux 2 到 AL2023 的更新引入了重大變更,可能會影響與專為 AL2 設計之軟體和組態的相容性。強烈建議在完全升級您的叢集之前,先使用 AL2023 測試您的應用程式。

    如需新 AMI 以及如何升級叢集的詳細資訊,請參閱 適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 7 月 31 日

SageMaker HyperPod 版本備註:2025 年 5 月 13 日

SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能和改進

SageMaker HyperPod 版本備註:2025 年 5 月 1 日

SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能

  • 已新增 EKS 協調叢集的用量報告,允許組織跨團隊專案或部門實作透明的用量型成本分配。此功能補充 HyperPod 的任務治理功能,以確保共用多租用戶 AI/ML 環境中的公平成本分配。如需詳細資訊,請參閱在 HyperPod 中報告運算用量

SageMaker HyperPod 版本備註:2025 年 4 月 28 日

SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能和改進

如需相關 AMI 版本的相關資訊,請參閱 適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 4 月 28 日適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 4 月 28 日

SageMaker HyperPod 版本備註:2025 年 4 月 18 日

SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能

SageMaker HyperPod 版本備註:2025 年 4 月 10 日

SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能和改進

  • 新增了直接喜好設定最佳化 (DPO) 配方教學課程,以進行 SageMaker HyperPod 與 Slurm 協同運作。此微調教學提供逐步指引,以在 GPU 驅動的 SageMaker HyperPod Slurm 叢集上使用 DPO 方法最佳化模型對齊。如需詳細資訊,請參閱HyperPod Slurm 叢集 DPO 教學課程 (GPU)

SageMaker HyperPod 版本備註:2025 年 4 月 3 日

SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能和改進

  • 新增了用於部署 SageMaker HyperPod 叢集的快速入門頁面。此頁面利用 SageMaker HyperPod 專用研討會的簡化設定工作流程,並使用預先建置的AWS CloudFormation範本自動化部署。它支援基礎設施喜好設定,例如 Slurm 或 Amazon EKS,以便輕鬆設定和部署基準叢集。

  • SageMaker HyperPod 現在支援 Slurm 和 Amazon EKS 叢集的下列執行個體類型。

    • 新的執行個體類型:I3en、M7i、R7i 執行個體。如需受支援執行個體的完整清單,請參閱 ClusterInstanceGroupDetails 中的 InstanceType 欄位。

SageMaker HyperPod 版本備註:2025 年 3 月 16 日

SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能和改進

SageMaker HyperPod 版本備註:2025 年 2 月 20 日

SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能和改進

  • 新增了從 SageMaker HyperPod 叢集刪除執行個體群組的支援。如需詳細資訊,請參閱從 EKS 協調叢集刪除執行個體群組,以及為 Slurm 協調叢集縮減叢集

SageMaker HyperPod 版本備註:2025 年 2 月 18 日

SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能

  • 此版本的 SageMaker HyperPod 包含來自 Nvidia 容器工具組的安全更新 (從 1.17.3 版到 1.17.4 版)。如需詳細資訊,請參閱 v1.17.4 版本備註

    注意

    對於 Nvidia 容器工具組 1.17.4 版中的所有容器工作負載,現已停用 CUDA 相容性程式庫的掛載。為了確保與容器工作流程上的多個 CUDA 版本相容,請更新您的 LD_LIBRARY_PATH 以包含您的 CUDA 相容性程式庫。您可以在如果您使用 CUDA 相容性層中找到特定步驟。

如需相關 AMI 版本的相關資訊,請參閱 適用於 Slurm 的 SageMaker HyperPod AMI 版本:2025 年 2 月 18 日適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2025 年 2 月 18 日

SageMaker HyperPod 版本備註:2025 年 2 月 6 日

SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集使用 Amazon EKS 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能和改進

  • 增強型 SageMaker HyperPod 多 AZ 支援:您可以為叢集內的個別執行個體群組指定不同的子網路和安全群組,跨不同的可用區域切割。如需 SageMaker HyperPod 多可用區支援的詳細資訊,請參閱 跨多個 AZ 設定 SageMaker HyperPod 叢集

SageMaker HyperPod 版本備註:2025 年 1 月 22 日

AMI 版本

SageMaker HyperPod 版本備註:2025 年 1 月 9 日

SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能和改進

SageMaker HyperPod 版本備註:2024 年 12 月 21 日

SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能

  • SageMaker HyperPod 現在支援 Slurm 和 Amazon EKS 叢集的下列執行個體類型。

    • 新的執行個體類型:C6gn、C6i、M6i、R6i。

    • 新的 Trainium 執行個體類型:Trn1 和 Trn1n。

改進

  • 增強了 Slurm 中斷任務時的錯誤記錄可見性,並防止在 Slurm 啟動的任務取消期間不必要的任務步驟終止。

  • 為 Slurm 和 Amazon EKS 叢集更新了 p5en 的基本 DLAMI。

AMI 版本

SageMaker HyperPod 版本備註:2024 年 12 月 13 日

SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能

  • SageMaker HyperPod 發行一組 Amazon CloudWatch 指標,以監控 SageMaker HyperPod Slurm 叢集的運作狀態和效能。這些指標與 CPU、GPU、記憶體使用率和叢集執行個體資訊相關,例如節點計數和失敗的節點。此監控功能預設為啟用,並且您可以在 /aws/sagemaker/Clusters CloudWatch 命名空間下存取這些指標。您也可以根據這些指標設定 CloudWatch 警示,以主動偵測和解決其 Slurm 型 HyperPod 叢集內的潛在問題。如需詳細資訊,請參閱Amazon SageMaker HyperPod Slurm 指標

AMI 版本

SageMaker HyperPod 版本備註:2024 年 11 月 24 日

SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能

AMI 版本

SageMaker HyperPod 版本備註:2024 年 11 月 15 日

SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。如需詳細資訊,請參閱 和 適用於 Amazon EKS 的 SageMaker HyperPod AMI 版本:2024 年 11 月 15 日

新功能和改進

  • 為 Amazon EKS 和 Slurm 協調的叢集新增了 trn1 和 trn1n 執行個體類型的支援。

  • 改善了 Slurm 叢集的日誌管理:

    • 實作了日誌輪換:每週或每日,根據大小而定。

    • 將日誌保留時間設定為 3 週。

    • 已壓縮日誌來減少儲存影響。

    • 繼續將日誌上傳至 CloudWatch 進行長期保留。

      注意

      有些日誌仍存放在 syslog 中。

  • 已調整 Fluent Bit 設定,以防止包含長行的檔案出現追蹤問題。

錯誤修正

  • 防止組態檔案 slurm.config 中 Slurm 控制器節點更新出現意外截斷。

AMI 版本

SageMaker HyperPod 版本備註:2024 年 11 月 11 日

SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能

  • SageMaker HyperPod AMI 現在支援 G6e 執行個體類型。

AMI 版本

SageMaker HyperPod 版本備註:2024 年 10 月 31 日

SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能

  • 為 Amazon EKS 和 Slurm 協調叢集,在執行個體群組層級和執行個體層級新增了縮減 SageMaker HyperPod 叢集。如需縮減 Amazon EKS 叢集的詳細資訊,請參閱 縮減 SageMaker HyperPod 叢集。如需縮減 Slurm 叢集的詳細資訊,請參閱在使用 管理 SageMaker HyperPod Slurm 叢集AWS CLI中的「縮減叢集」

  • SageMaker HyperPod 現在支援 Amazon EKS 和 Slurm 協調叢集的 P5e 執行個體類型。

SageMaker HyperPod 版本備註:2024 年 10 月 21 日

SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能

  • SageMaker HyperPod 現在支援 Slurm 和 Amazon EKS 叢集的 P5e[n]、G6、Gr6 和 Trn2[n] 執行個體類型。

AMI 版本

SageMaker HyperPod 版本備註:2024 年 9 月 10 日

SageMaker HyperPod 會針對 使用 Amazon EKS 協作 SageMaker HyperPod 叢集使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能

AMI 版本

SageMaker HyperPod 版本備註:2024 年 8 月 20 日

SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能

  • 增強了 SageMaker HyperPod 自動繼續功能,為與一般資源 (GRES) 連接的 Slurm 節點擴充彈性功能。

    一般資源 (GRES) 連接到 Slurm 節點時,Slurm 通常不允許節點配置的變更,例如取代節點,因此不允許繼續失敗的任務。除非明確禁止,否則 HyperPod 自動繼續功能會自動將與啟用 GRES 的節點相關聯的任何錯誤任務重新排入佇列。此程序涉及停止任務、將其放回任務佇列,然後從頭重新啟動任務。

其他變更

  • 已在 SageMaker HyperPod AMI 中預先封裝 slurmrestd

  • 已在 slurm.conf 中將 ResumeTimeoutUnkillableStepTimeout 的預設值從 60 秒變更為 300 秒,以改善系統回應能力和任務處理。

  • 針對 NVIDIA 資料中心 GPU 管理員 (DCGM) 和 NVIDIA 系統管理介面 (nvidia-smi) 的運作狀態檢查進行了次要改善。

錯誤修正

  • HyperPod 自動繼續外掛程式可以使用閒置節點來繼續任務。

SageMaker HyperPod 版本備註:2024 年 6 月 20 日

SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能

  • 新增了將額外儲存體連接至 SageMaker HyperPod 叢集執行個體的新功能。透過此功能,您可以在叢集建立或更新程序進行期間,透過 SageMaker HyperPod 主控台或 CreateClusterUpdateCluster API,在執行個體群組組態層級設定補充儲存體。額外的 EBS 磁碟區會連接到 SageMaker HyperPod 叢集內的每個執行個體,並掛載到 /opt/sagemaker。若要進一步了解如何在 SageMaker HyperPod 叢集中實作它,請參閱以下頁面上的更新文件。

    請注意,您需要更新 HyperPod 叢集軟體才能使用此功能。修補 HyperPod 叢集軟體後,您可以透過新增執行個體群組,將此功能用於 2024 年 6 月 20 日之前建立的現有 SageMaker HyperPod 叢集。對於 2024 年 6 月 20 日之後建立的任何 SageMaker HyperPod 叢集,此功能完全有效。

升級步驟

  • 執行下列命令來呼叫 UpdateClusterSoftware API,以使用最新的 HyperPod DLAMI 更新現有的 HyperPod 叢集。若要尋找更多指示,請參閱 更新叢集的 SageMaker HyperPod 平台軟體

    重要

    在執行此 API 之前備份您的工作。修補程序會將根磁碟區取代為更新的 AMI,這表示先前存放在執行個體根磁碟區中的資料將會遺失。請確定您將資料從執行個體根磁碟區備份至 Amazon S3 或 Amazon FSx for Lustre。如需詳細資訊,請參閱使用 SageMaker HyperPod 提供的備份指令碼

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    注意

    請注意,您應該執行 AWS CLI命令來更新 HyperPod 叢集。目前無法透過 SageMaker HyperPod 主控台 UI 更新 HyperPod 軟體。

SageMaker HyperPod 版本備註:2024 年 4 月 24 日

SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

錯誤修正

SageMaker HyperPod 版本備註:2024 年 3 月 27 日

SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

HyperPod 軟體修補程式

HyperPod 服務團隊會透過 SageMaker HyperPod DLAMI 分發軟體修補程式。請參閱下列有關最新 HyperPod DLAMI 的詳細資訊。

  • 在此 HyperPod DLAMI 版本中,Slurm 是使用 REST 服務 (slurmestd) 建置的,並支援 JSON、YAML 和 JWT。

  • 已將 Slurm 升級至 v23.11.3。

改進

  • 已將自動繼續服務逾時增加到 60 分鐘。

  • 已改善執行個體取代程序,使其不會重新啟動 Slurm 控制器。

  • 已改善執行生命週期指令碼時出現的錯誤訊息,例如下載錯誤和執行個體啟動時的執行個體運作狀態檢查錯誤。

錯誤修正

  • 已修正 chrony 服務導致時間同步問題的錯誤。

  • 已修正剖析 slurm.conf 的錯誤。

  • 已修正 NVIDIA go-dcgm 程式庫的問題。

SageMaker HyperPod 版本備註:2024 年 3 月 14 日

SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

改進

AMI 版本

SageMaker HyperPod 版本備註:2024 年 2 月 15 日

SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能

  • 新增了新的 UpdateClusterSoftware API 進行 SageMaker HyperPod 安全性修補。當安全性修補程式變成可用時,我們建議您執行 aws sagemaker update-cluster-software --cluster-name your-cluster-name 來更新帳戶中現有的 SageMaker HyperPod 叢集。若要追蹤未來的安全性修補程式,請繼續追蹤此 Amazon SageMaker HyperPod 版本備註頁面。若要了解 UpdateClusterSoftware API 的運作方式,請參閱更新叢集的 SageMaker HyperPod 平台軟體

SageMaker HyperPod 版本備註:2023 年 11 月 29 日

SageMaker HyperPod 會針對 使用 Slurm 協作 SageMaker HyperPod 叢集 發行下列項目。

新功能

  • 於 AWSre:Invent 2023 推出 Amazon SageMaker HyperPod。

AMI 版本