HyperPod 受管層檢查點

本節說明受管層檢查點的運作方式，以及其為大規模模型訓練提供的優勢。

Amazon SageMaker HyperPod 受管層檢查點可協助您更有效率地訓練大規模生成式 AI 模型。它會使用多個儲存層，包括您叢集的 CPU 記憶體。此方法可縮短您的復原時間，並將訓練進度的損失降至最低。它也會在您的訓練基礎設施中使用未充分利用的記憶體資源。

受管層檢查點可讓您以更高的頻率將檢查點儲存至記憶體。它會定期將其保存至耐久的儲存體。這可在訓練過程中同時維持效能與可靠性。

本指南涵蓋如何在 Amazon EKS HyperPod 叢集上設定和使用受管層檢查點搭配 PyTorch 架構。

受管層檢查點的運作方式

受管層檢查點使用多層儲存方法。CPU 記憶體可做為主要層來存放模型檢查點。次要層包括持久性儲存選項，例如 Amazon S3。

當您儲存檢查點時，系統會跨叢集節點將其存放在配置的記憶體空間中。它會自動跨相鄰運算節點複寫資料，以提高可靠性。此複寫策略可防範單一或多個節點故障，同時提供快速存取以進行復原操作。

系統也會根據您的組態，定期將檢查點儲存至持久性儲存體。這可確保訓練進度的長期耐久性。

重要元件包括：

系統透過簡單的 API 呼叫與 PyTorch 訓練迴圈無縫整合。它需要對現有程式碼進行最少的變更。

受管層檢查點為大規模模型訓練提供數個優勢：

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

刪除叢集

設定