SageMaker 模型平行化程式庫的核心功能

Amazon SageMaker AI 模型平行化程式庫提供發佈策略和節省記憶體技術，例如碎片資料平行化、張量平行化、管道排程模型依層分割，以及檢查點。模型平行化策略與技術有助於發佈大型模型到多個裝置，同時最佳化訓練速度及記憶體使用量。此程式庫也提供 Python 協助程式函式、內容管理員與包裝函式，以調整訓練指令碼來自動化或手動分割模型。

當您實作模型平行化至訓練任務時，您會保持相同的兩個步驟工作流程，如同利用模型平行化執行 SageMaker 分散式訓練任務區段所示。若要調整訓練指令碼，您需要新增零或幾行其他程式碼至訓練指令碼。若要啟動已調整訓練指令碼的訓練任務，您需要設定發佈設定參數，以便啟用節省記憶體功能，或傳遞平行處理程度的值。

若要開始使用範例，請參閱下列 Jupyter 筆記本，其中示範如何使用 SageMaker 模型平行化程式庫。

若要深入了解程式庫的核心功能，請參閱下列主題。

注意

SageMaker 分散式訓練程式庫可透過 SageMaker Training 平台中 PyTorch、Hugging Face 和 TensorFlow 的 AWS 深度學習容器取得。若要利用分散式訓練程式庫的功能，建議您使用 SageMaker Python SDK。如果您透過適用於 Python 的 SDK (Boto3) 或 AWS Command Line Interface使用 SageMaker API，您還可以手動設定 JSON 的請求語法。在整份文件，指示與範例著重於如何搭配 SageMaker Python SDK 使用分散式訓練程式庫。

重要

SageMaker 模型平行化程式庫支援 PyTorch 的所有核心功能，並支援 TensorFlow 的管道平行化。

主題

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

支援的架構和 AWS 區域

碎片資料平行處理