使用 SageMaker AI 分散式資料平行化程式庫執行分散式訓練 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 SageMaker AI 分散式資料平行化程式庫執行分散式訓練

SageMaker AI 分散式資料平行化 (SMDDP) 程式庫透過提供針對 AWS 基礎設施最佳化的集體通訊操作實作,以近乎線性的擴展效率擴展了 SageMaker 在深度學習模型上的訓練能力。

在龐大的訓練資料集上訓練大型機器學習 (ML) 模型 (例如大型語言模型 (LLM) 和擴散模型) 時,ML 從業者會使用加速器叢集和分散式訓練技術來減少訓練時間,或解決無法容納每個 GPU 記憶體之模型的記憶體限制。ML 從業人員通常從單一執行個體上的多個加速器開始,然後隨著工作負載需求增加擴展到執行個體叢集。隨著叢集規模的增加,多個節點之間的通訊開銷也會增加,導致整體運算效能下降。

為了解決此類開銷和記憶體問題,SMDDP 程式庫提供下列功能。

  • SMDDP 程式庫可最佳化 AWS 網路基礎設施和 Amazon SageMaker AI ML 執行個體拓撲的訓練任務。

  • SMDDP 程式庫透過實作針對 AWS 基礎設施最佳化的 AllReduceAllGather 集體通訊操作,來改善節點之間的通訊。

若要進一步了解 SMDDP 程式庫產品的詳細資訊,請繼續前往SageMaker AI 分散式資料平行化程式庫簡介

如需使用 SageMaker AI 提供的模型平行化策略來進行訓練的詳細資訊,另請參閱(存檔) SageMaker 模型平行化程式庫 v1.x