SageMaker HyperPod 配方 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker HyperPod 配方

Amazon SageMaker HyperPod 配方是由 提供的預先設定訓練堆疊 AWS ,可協助您從 Llama、Mistral、Mixtral 或 DeepSeek 等各種模型系列快速開始訓練和微調公開可用的基礎模型 (FMs)。這些配方可自動化端對端訓練迴圈,包括載入資料集、套用分散式訓練技術,以及管理檢查點以更快速地從故障中復原。

SageMaker HyperPod 配方特別有益於可能沒有深度機器學習專業知識的使用者,因為他們可簡化訓練大型模型所涉及的許多複雜性。

您可以在 SageMaker HyperPod 內或作為 SageMaker 訓練任務執行配方。

下列資料表保留在 SageMaker HyperPod GitHub 儲存庫中,並提供有關支援進行預先訓練和微調的模型、其各自配方及啟動指令碼,支援的執行個體類型等的最新資訊。

  • 如需支援進行預先訓練之模型、配方和啟動指令碼的最新清單,請參閱預先訓練資料表

  • 如需支援進行微調之模型、配方和啟動指令碼的最新清單,請參閱微調資料表

對於 SageMaker HyperPod 使用者,端對端訓練任務流程的自動化來自訓練轉接器與 SageMaker HyperPod 配方的整合。訓練轉接器是建置在 NVIDIA NeMo 架構Neuronx 分散式訓練套件之上。如果您熟悉使用 NeMo,則使用訓練轉接器的程序相同。訓練轉接器會在您的叢集上執行配方。

顯示 SageMaker HyperPod 配方工作流程的圖表。頂端的「配方」圖示會饋送至「HyperPod 配方啟動器」方塊。此方塊會連線到更大的區段,標記為「叢集:Slurm、K8s、...",其中包含三個具有相關聯配方檔案的 GPU 圖示。叢集區段底部標記為「使用 HyperPod 訓練轉接器進行訓練」。

您也可以定義自己的自訂配方來訓練自己的模型。

若要開始使用教學課程,請參閱教學