在 HyperPod 上使用 Slurm 執行分散式訓練工作負載

SageMaker HyperPod 專門用於訓練大型語言模型 (LLM) 和基礎模型 (FM) 的工作負載。這些工作負載通常需要針對 ML 基礎設施和資源使用多個平行化技術和最佳化的操作。使用 SageMaker HyperPod，您可以使用下列 SageMaker AI 分散式訓練架構：

在 SageMaker HyperPod 上使用 SMDDP

SMDDP 程式庫是集體通訊程式庫，可改善分散式資料平行訓練的運算效能。SMDDP 程式庫使用下列開放原始碼分散式訓練架構：

SMDDP 程式庫透過為 SageMaker HyperPod 提供下列項目，解決金鑰集體通訊操作的通訊負荷。

程式庫提供AllGather針對最佳化AWS。 AllGather 是一種用於碎片資料平行訓練的關鍵操作，這是一種由熱門程式庫提供的記憶體效率資料平行處理技術。其中包括 SageMaker AI 模型平行化 (SMP) 程式庫、DeepSpeed 零冗餘最佳化工具 (ZeRO) 和 PyTorch 全碎片資料平行化 (FSDP)。
程式庫會透過充分利用AWS網路基礎設施和 SageMaker AI ML 執行個體拓撲來執行最佳化node-to-node通訊。

執行範例資料平行訓練任務

探索下列使用 SMDDP 程式庫實作資料平行化技術的分散式訓練範例。

設定在 SageMaker HyperPod 上使用 SMDDP 程式庫的環境

以下是在 SageMaker HyperPod 上使用 SMDDP 程式庫的訓練環境要求。

根據您想要執行分散式訓練任務的方式，有兩種安裝 SMDDP 程式庫的選項：

預先安裝了 SMDDP 程式庫的 Docker 映像檔或 SMDDP 二進位檔案的 URL 會列示在 SMDDP 程式庫文件中支援的架構。

若要了解通常如何使用 SMDDP 執行資料平行訓練任務，請參閱使用 SageMaker AI 分散式資料平行化程式庫進行分散式訓練。

SMP 程式庫也與 PyTorch FSDP、NVIDIA Megatron 和 NVIDIA 轉換器引擎等開放原始碼架構相容。

執行範例模型平行化訓練工作負載

SageMaker AI 服務團隊在 awsome-distributed-training/3.test_cases/17.SM-modelparallelv2 提供使用 SMP 程式庫實作模型平行化的範例訓練任務。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

執行 Docker 容器

叢集資源監控