Amazon SageMaker HyperPod - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon SageMaker HyperPod

SageMaker HyperPod 可協助您佈建彈性叢集,以執行機器學習 (ML) 工作負載和開發最先進的模型,例如大型語言模型 (LLM)、擴散模型和基礎模型 FM)。它透過移除建立和維護採用 AWS Trainium、NVIDIA A100 和 H100 圖形處理器 (GPUs) 等數千個加速器的大型運算叢集所涉及的未區分的繁重提升,加速 FMs 的開發。加速器故障時,SageMaker HyperPod 的彈性功能會監控叢集執行個體,以自動即時偵測並置換故障的硬體,讓您可以專注於執行 ML 工作負載。

若要開始使用,請檢查 使用 SageMaker HyperPod 的先決條件、設定 AWS Identity and Access Management for SageMaker HyperPod,然後選擇 SageMaker HyperPod 支援的下列其中一個協調器選項。

SageMaker HyperPod 中的 Slurm 支援

SageMaker HyperPod 透過與 Slurm (開放原始碼工作負載管理員) 整合,提供在彈性叢集上執行機器學習工作負載的支援。SageMaker HyperPod 中的 Slurm 支援會透過 Slurm 叢集組態啟用無縫叢集協同運作,從而可讓您在 SageMaker HyperPod 叢集上設定前端、登入和工作節點。此整合也有助於在叢集上執行 ML 工作負載的 Slurm 型任務排程,以及直接存取叢集節點以進行任務排程。透過 HyperPod 的生命週期組態支援,您可以自訂叢集的運算環境,以符合您的特定要求。此外,透過利用 Amazon SageMaker AI 分散式訓練程式庫,您可以最佳化叢集的 AWS 運算和網路資源效能。如需詳細資訊,請參閱 使用 Slurm 協作 SageMaker HyperPod 叢集

SageMaker HyperPod 中的 Amazon EKS 支援

SageMaker HyperPod 也會與 Amazon EKS 整合,以在長時間執行和彈性運算叢集上啟用大規模訓練基礎模型。這可讓叢集管理員使用者佈建 HyperPod 叢集,並將其連接至 EKS 控制平面,從而啟用動態容量管理、直接存取叢集執行個體,以及彈性功能。對於資料科學家,HyperPod 中的 Amazon EKS 支援允許執行容器化工作負載,以訓練基礎模型、在 EKS 叢集上進行推論,以及利用任務自動繼續功能進行 Kubeflow PyTorch 訓練。架構涉及 EKS 叢集 (控制平面) 與 VPC 內 HyperPod 叢集 (工作節點) 之間的 1 對 1 對應,這會提供緊密整合的解決方案,以執行大規模 ML 工作負載。如需詳細資訊,請參閱 使用 Amazon EKS 協作 SageMaker HyperPod 叢集

UltraServer 搭配 HyperPod

HyperPod 搭配 UltraServer 透過將 NVIDIA 超級晶片整合到具凝聚力的高效能基礎設施來提供 AI 運算能力。每個 NVL72 UltraServer 將 18 個執行個體與透過 NVLink 互連的 72 個 NVIDIA Blackwell GPU 結合在一起,與上一代執行個體相比,可提供更快的推論和更快的訓練效能。此架構對於使用兆參數基礎模型的組織特別有價值,因為統一的 GPU 記憶體可讓整個模型保持在單一 NVLink 網域內,消除跨節點聯網瓶頸。HyperPod 透過智慧型拓撲感知排程增強了此硬體優勢,其可最佳化工作負載置放、最佳化將中斷降至最低的自動執行個體取代,以及最佳化同時支援專用和共用資源組態的彈性部署選項。對於突破模型大小和效能界限的團隊,此整合提供所需的運算基礎,以前所未有的效率訓練和部署最先進的 AI 模型。

SageMaker HyperPod 會跨 UltraServer 自動最佳化執行個體置放。根據預設,HyperPod 會先排定一個 UltraServer 中所有執行個體的優先順序,再使用不同的 UltraServer。例如,如果您想要 14 個執行個體,並且您的計畫中擁有 2 個 UltraServer,則 SageMaker AI 會使用第一個 UltraServer 中的所有執行個體。如果您想要 20 個執行個體,SageMaker AI 會使用第一個 UltraServer 中的所有 18 個執行個體,然後從第二個 UltraServer 再使用 2 個執行個體。

AWS 區域 SageMaker HyperPod 支援

下列提供 SageMaker HyperPod AWS 區域。

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-south-2

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ap-southeast-3

  • ap-southeast-4

  • ap-northeast-1

  • sa-east-1