本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
為您的訓練任務或 HyperPod 叢集保留訓練計畫
Amazon SageMaker 訓練計畫是一項功能,可讓您保留 GPU 容量,並協助將 GPU 容量用於大規模 AI 模型訓練工作負載。此功能可讓您存取熱門的執行個體類型,涵蓋各種 GPU 加速運算選項,包括最新的 NVIDIA GPU 技術和 AWS Trainium 晶片。透過 SageMaker 訓練計畫,您可以在指定的時間表和預算內確保對這些高需求、高效能運算資源的可預測存取,而無需管理基礎基礎設施。此彈性對於處理為其關鍵任務 AI 工作負載取得和排程這些過度訂閱運算執行個體之挑戰的組織來說特別重要。
什麼是 SageMaker 訓練計畫
SageMaker 訓練計畫可讓您保留針對目標資源需求量身打造的運算容量,例如 SageMaker 訓練任務或 SageMaker HyperPod 叢集。服務會自動處理保留、佈建加速運算資源、基礎設施設定、工作負載執行,以及從基礎設施故障中復原。
SageMaker 訓練計畫包含一或多個預留容量區塊,每個區塊皆由下列參數定義:
-
特定執行個體類型
-
執行個體數量
-
可用區域
-
持續時間
-
開始和結束時間
注意
-
訓練計畫專屬於其目標資源 (SageMaker Training Job 或 SageMaker HyperPod),無法互換。
-
單一訓練計畫中的多個預留容量區塊可能會不連續。這表示預留容量區塊之間可能會有間隙。
SageMaker 訓練計畫的優點
SageMaker 訓練計劃提供下列優點:
-
可預測存取:在指定的時間範圍內為機器學習工作負載預留 GPU 容量。
-
成本管理:事先規劃和預算大規模訓練需求。
-
自動化資源管理:SageMaker 訓練計畫會處理基礎設施的佈建和管理。
-
彈性:為各種資源建立訓練計畫,包括 SageMaker 訓練任務和 SageMaker HyperPod 叢集。
-
容錯能力:受益於從基礎設施故障自動復原,以及跨 SageMaker AI 訓練任務可用區域的工作負載遷移。
SageMaker 訓練計劃預先保留和彈性的開始時間
SageMaker 訓練計畫可讓您提前保留運算容量,以及彈性的開始時間和持續時間。
-
提前保留:您可以在開始日期前最多 8 週 (56 天) 內保留訓練計畫。
-
最短前置時間:SageMaker 訓練計畫方案可在保留後 30 分鐘內開始,視可用性而定。
注意
您可以搜尋並購買可在 30 分鐘內存取的計劃。為了確保及時啟用,付款交易必須在所需的開始時間前至少 5 分鐘成功完成。例如,如果您希望計劃在下午 2:00 開始,您可以最晚在下午 1:30 進行最後一分鐘搜尋,並在下午 1:55 前完成購買,以確保計劃在下午 2:00 之前準備就緒。
-
保留持續時間和執行個體數量:SageMaker 訓練計畫可讓您保留具有特定持續時間和數量選項的執行個體。如需指定 AWS 區域、持續時間和數量選項中可用的執行個體類型,請參閱 支援的執行個體類型 AWS 區域、 和 定價。
-
結束時間:訓練計畫一律在保留最後一天的 UTC 上午 11:30 結束。
-
訓練計畫終止:當 30 分鐘保留在預留容量中時,SageMaker 訓練計畫會啟動終止該區塊內任何執行中執行個體的程序,直到下一個預留容量變成作用中為止。您保留訓練計畫的完整存取權,直到最終預留容量區塊結束時間前 30 分鐘為止。
SageMaker 訓練計劃使用者工作流程
SageMaker 訓練計畫會執行下列步驟:
管理員步驟:
-
搜尋和檢閱:尋找符合您運算需求的可用計劃方案,例如執行個體類型、計數、開始時間和持續時間。
-
建立計劃:使用所選計劃方案的 ID 預留符合您需求的訓練計劃。
-
付款和排程:成功預付付款後,計劃狀態會變成
Scheduled
。
規劃使用者/ML 工程師的步驟:
-
資源配置:使用您的計劃將 SageMaker AI 訓練任務排入佇列,或配置給 SageMaker HyperPod 叢集執行個體群組。
-
啟用:計劃開始日期送達時,會變成
Active
。根據可用的預留容量,SageMaker 訓練計畫會自動啟動訓練任務或佈建執行個體群組。
注意
當預留容量期間開始時,訓練計畫的狀態會從 轉換為 Scheduled
Active
,然後在Scheduled
等待下一個預留容量期間開始時回到 。
下圖提供 SageMaker 訓練計畫如何與不同 互動的完整概觀target resources,說明計畫的生命週期及其在 SageMaker 訓練任務和 SageMaker HyperPod 叢集的資源配置中的角色。
-
SageMaker 訓練任務的訓練計畫:第一個圖表說明訓練計畫與 SageMaker 訓練任務之間互動的end-to-end工作流程。
-
SageMaker HyperPod 叢集的訓練計畫:第二個圖表說明訓練計畫與 SageMaker HyperPod 執行個體群組之間互動的end-to-end工作流程。
支援的執行個體類型 AWS 區域、 和 定價
訓練計劃支援下列特定高效能執行個體類型的保留,每個都提供於 select AWS 區域:
-
ml.p4d.24xlarge
-
ml.p5.48xlarge
-
ml.p5e.48xlarge
-
ml.p5en.48xlarge
-
ml.trn1.32xlarge
-
ml.trn2.48xlarge
注意
執行個體類型的可用性可能會隨著時間而變更。如需根據區域可用執行個體類型up-to-date,以及其個別價格,請參閱 SageMaker 定價
跨多個區域的可用性允許 為工作負載選擇最合適的位置,並考慮資料駐留要求和其他 AWS 服務的鄰近性等因素。
重要
-
您可以使用 SageMaker 訓練計劃來預留具有下列保留持續時間和執行個體數量選項的執行個體。
-
保留期間為 1 天,從 1 天增加到 182 天。
-
保留執行個體數量選項為 1、2、4、8、16、32 或 64 個執行個體。
-
-
請確定您的訓練任務或 HyperPod 服務配額允許每個執行個體類型超過您計劃中指定執行個體數量的執行個體數量上限。若要檢視您目前的配額或請求提高配額,請參閱 使用 AWS 管理主控台檢視 SageMaker 訓練計畫配額。
SageMaker 訓練計畫搜尋行為
搜尋訓練計畫產品時,SageMaker 訓練計畫使用下列方法來最大化使用者的資源可用性和彈性,即使需求很高且預留容量區塊很少:
-
初始持續搜尋:SageMaker 訓練計畫會先嘗試尋找符合開始和結束日期內指定持續時間的單一連續預留容量區塊,同時符合所有其他指定條件,包括目標資源、請求的執行個體類型和執行個體數量。
-
雙區塊搜尋:如果符合所有條件的單一連續預留容量區塊無法使用,SageMaker 訓練計畫不會傳回「無容量」結果。相反地,它會自動嘗試使用兩個單獨的預留容量區塊來完成請求,將總持續時間分割為兩個時段。
這種雙區塊方法在資源配置方面提供更多彈性,可能保護無法使用的高需求執行個體。
注意
SageMaker 訓練計劃最多可傳回一個或兩個區段的三個方案。例如,對於 48 小時持續時間計劃,SageMaker 訓練計劃可能會提供具有兩個 24 小時區塊、一個連續 48 小時區塊和兩個持續時間不平均區塊的計劃。
考量事項
重要
-
訓練計劃一旦購買就無法修改。
-
訓練計劃無法跨 AWS 帳戶或在您的 AWS 組織內共用。
-
搜尋訓練計畫產品時,SageMaker 訓練計畫會根據 調整其搜尋策略target resources:
對於 SageMaker HyperPod 叢集:
-
方案僅限於單一可用區域 (AZ)。
-
這可確保叢集內的一致網路效能和資料地區性。
對於 SageMaker 訓練任務:
-
方案可以跨越多個可用區域。
-
當計劃方案包含多個不連續的預留容量時,這尤其重要。
-
例如,一個計劃可能會包含一個預留容量區塊的 AZ-A 容量,以及另一個預留容量區塊的 AZ-B。SageMaker 訓練計劃可以根據資源可用性,在可用區域 (AZs) 之間自動移動工作負載。
這種用於訓練任務的多可用區方法在資源配置方面提供更大的彈性,增加為您的工作負載尋找合適容量的機會。不過,您應該知道,您的任務可能會在保留期間的不同部分在不同 AZs 中執行。
-
-
提供雙區塊方案時,使用者應仔細考慮此分割配置是否符合其工作負載需求。這可能需要調整任務排程或工作負載分佈,以適應保留的非連續性質。