ML 的容量區塊 - Amazon Elastic Compute Cloud

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

ML 的容量區塊

ML 的容量區塊可讓您在未來日期保留 GPU 加速運算執行個體,以支援您的短期機器學習 (ML) 工作負載。容量區塊內執行的執行個體會在 Amazon EC2 UltraCluster 內自動放置於鄰近位置,以實現低延遲、Pb 級的非阻塞式聯網。

您也可以使用容量區塊來保留 Amazon EC2 UltraServers 的容量。UltraServers 會在低延遲、高頻寬加速器互連中連接多個 Amazon EC2 執行個體。您可以使用 UltraServers 來處理訓練、微調和推論中最運算和記憶體密集的 AI/ML 工作負載。如需詳細資訊,請參閱 Amazon EC2 UltraServers

使用容量區塊,您可以查看未來何時可使用 GPU 執行個體容量,並且可以排定容量區塊在您最方便的時間啟動。保留容量區塊時,您可以獲得 GPU 執行個體的可預測容量保證,同時只須支付所需時間的費用。如果您需要 GPU 一次支援 ML 工作負載數天或數週,且不想在未使用 GPU 執行個體的情況下支付保留費用,建議您使用容量區塊。

以下是容量區塊的一些常見使用案例:

  • ML 模型訓練和微調 – 不間斷存取保留的 GPU 執行個體,以完成 ML 模型訓練和微調。

  • ML 實驗和原型 – 進行實驗並建置短時間需要 GPU 執行個體的原型。

您可以使用下列規格保留容量區塊:

  • 提前 8 週預留開始時間

  • 將保留期間設定為 1 到 14 天,或 7 天的倍數,最長 182 天 (範例:21 天、28 天)

  • 每個容量區塊最多可設定 64 個執行個體

  • 跨多個容量區塊設定最多 256 個執行個體

對於 Amazon EC2 UltraServers,每個 UltraServer 對應至一個容量區塊。您可以透過單一請求請求多個 UltraServers。

您可以使用容量區塊來保留 p6-b200p5、、p5ep5enp4detrn1、 和 p4dtrn2執行個體。您可以透過容量區塊購買下列 UltraServer 類型: P6e-GB200Trn2(預覽)。

若要保留容量區塊,請先指定您的容量需求,包括執行個體類型或 UltraServer 類型、執行個體或 UltraServers 的數量、時間量、最早的開始日期,以及您需要的最新結束日期。您就可以看到符合您規格的可用容量區塊方案。容量區塊方案包含詳細資訊,例如開始時間、可用區域和保留價格。容量區塊方案的價格取決於交付方案時的可用供給與需求。保留容量區塊後,價格不會變更。如需詳細資訊,請參閱容量區塊定價和計費

購買容量區塊方案時,系統會根據您選取的日期和執行個體數量保留。容量區塊保留開始時,您可以在啟動請求中指定保留 ID,鎖定執行個體啟動。

您可以在容量區塊的結束時間前 30 分鐘 (例如執行個體類型) 或 60 分鐘 (適用於 UltraServer 類型) 之前,使用您預留的所有執行個體。在容量區塊保留中剩餘 30 分鐘 (適用於執行個體類型) 或 60 分鐘 (適用於 UltraServer 類型) 的情況下,我們會開始終止在容量區塊中執行的任何執行個體。我們會利用這段時間清理您的執行個體,再將容量區塊交付給下一位客戶。我們會在終止程序開始前 10 分鐘,透過 EventBridge 發出事件。如需詳細資訊,請參閱使用 EventBridge 監控容量區塊

支援平台

ML 的容量區塊目前僅支援具有預設租用的執行個體和 UltraServers。當您使用 AWS Management Console 購買容量區塊時,預設平台選項為 Linux/UNIX。當您使用 AWS Command Line Interface (AWS CLI) 或 AWS SDK 購買容量區塊時,可使用下列平台選項:

  • Linux/UNIX

  • Red Hat Enterprise Linux

  • RHEL with HA

  • SUSE Linux

  • Ubuntu Pro

考量事項

使用容量區塊之前,請考慮下列詳細資訊和限制。

  • 對於 P6e-GB200 UltraServer 容量區塊,您必須在容量區塊結束時間之前至少 60 分鐘終止執行個體。

  • 若要使用 P6e-GB200 UltraServer 容量區塊,您必須選擇加入達拉斯本地區域 (維吉尼亞北部) 本地區域。

  • 每個容量區塊最多可以有 64 個執行個體,而且跨容量區塊最多可以有 256 個執行個體。

  • 您可以描述最快 30 分鐘即可啟動的容量區塊供應項目。

  • 容量區塊在國際標準時間 (UTC) 上午 11 點 30 分結束。

  • 終止容量區塊中執行的執行個體程序會在保留的最後一天國際標準時間 (UTC) 上午 11 點開始。

  • 可以保留最多未來 8 週內的容量區塊。

  • 不允許取消容量區塊。

  • 無法移動分割容量區塊。

  • 容量區塊無法跨 AWS 帳戶或在您的 AWS 組織內共用。

  • 容量區塊無法在容量保留群組中使用。

  • 組織中所有帳戶在容量區塊中可以保留的執行個體總數 AWS ,在特定日期不得超過 64 個執行個體。

  • 若要使用容量區塊,執行個體必須專門鎖定保留 ID。

  • 容量區塊中的執行個體不會計入您的隨需執行個體限制。

  • 對於使用自訂 AMI 的 P5 執行個體,請確保您擁有 EFA 所需的軟體和設定

  • 對於 Amazon EKS 受管節點群組,請參閱使用適用於 ML 的 Amazon EC2 容量區塊建立受管節點群組。對於 Amazon EKS 自我管理節點群組,請參閱使用自我管理節點來運用 ML 容量區塊

建立容量區塊後,您可以使用容量區塊執行以下操作:

如需 的詳細資訊 AWS ParallelCluster,請參閱什麼是 AWS ParallelCluster

注意

並非所有 AWS 區域的所有執行個體類型都支援 64 個執行個體的容量區塊大小。