ML 的容量區塊 - Amazon Elastic Compute Cloud

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

ML 的容量區塊

ML 的容量區塊可讓您為日後預留基於 GPU 的加速運算執行個體,以支援短時間的機器學習 (ML) 工作負載。在容量區塊內執行的執行個體會自動放置在 Amazon EC2 UltraClusters 內,用於低延遲、PB 級、非封鎖的網路。

您亦可使用容量區塊,來預留 Amazon EC2 UltraServers 的容量。UltraServer 以低延遲、高頻寬加速器互連,來連線多個 Amazon EC2 執行個體。您可藉助 UltraServers,來處理訓練、微調及推論中運算與記憶體最密集的 AI/ML 工作負載。若要了解詳細資訊,請參閱 Amazon EC2 UltraServer

使用容量區塊,您可以查看未來何時可使用 GPU 執行個體容量,並且可以排定容量區塊在您最方便的時間啟動。保留容量區塊時,您可以獲得 GPU 執行個體的可預測容量保證,同時只須支付所需時間的費用。如果您需要 GPU 一次支援 ML 工作負載數天或數週,且不想在未使用 GPU 執行個體的情況下支付保留費用,建議您使用容量區塊。

以下是容量區塊的一些常見使用案例:

  • ML 模型訓練和微調 – 不間斷存取保留的 GPU 執行個體,以完成 ML 模型訓練和微調。

  • ML 實驗和原型 – 進行實驗並建置短時間需要 GPU 執行個體的原型。

容量區塊適用於某些 AWS 區域中的特定執行個體類型。如需詳細資訊,請參閱 支援的執行個體類型和區域

您可以保留最多未來八週內的容量區塊。每個容量區塊可包含最多 64 個執行個體,且跨容量區塊可包含最多 256 個執行個體。

支援的執行個體類型和區域

執行個體和 UltraServer 容量區塊可與下列執行個體類型和 AWS 區域搭配使用。

注意

並非所有 AWS 區域的所有執行個體類型都支援 64 個執行個體的容量區塊大小。

執行個體容量區塊

  • p6-b300.48xlarge

    • 美國西部 (奧勒岡) — us-west-2

  • p6-b200.48xlarge

    • 美國東部 (維吉尼亞北部) — us-east-1

    • 美國東部 (俄亥俄) — us-east-2

    • 美國西部 (奧勒岡) — us-west-2

  • p5.4xlarge

    • 美國東部 (維吉尼亞北部) — us-east-1

    • 美國東部 (俄亥俄) — us-east-2

    • 美國西部 (奧勒岡) — us-west-2

    • 歐洲 (倫敦) — eu-west-2

    • 亞太區域 (孟買) — ap-south-1

    • 亞太區域 (東京) — ap-northeast-1

    • 亞太區域 (雪梨) — ap-southeast-2

    • 南美洲 (聖保羅) — sa-east-1

  • p5.48xlarge

    • 美國東部 (維吉尼亞北部) — us-east-1

    • 美國東部 (俄亥俄) — us-east-2

    • 美國西部 (加利佛尼亞北部) — us-west-1

    • 美國西部 (奧勒岡) — us-west-2

    • 歐洲 (斯德哥爾摩) — eu-north-1

    • 歐洲 (倫敦) — eu-west-2

    • 南美洲 (聖保羅) — sa-east-1

    • 亞太區域 (東京) — ap-northeast-1

    • 亞太區域 (孟買) — ap-south-1

    • 亞太區域 (雪梨) — ap-southeast-2

    • 亞太區域 (雅加達) — ap-southeast-3

  • p5e.48xlarge

    • 美國東部 (維吉尼亞北部) — us-east-1

    • 美國東部 (俄亥俄) — us-east-2

    • 美國西部 (加利佛尼亞北部) — us-west-1

    • 美國西部 (奧勒岡) — us-west-2

    • 歐洲 (斯德哥爾摩) — eu-north-1

    • 歐洲 (倫敦) — eu-west-2

    • 歐洲 (西班牙) — eu-south-2

    • 南美洲 (聖保羅) — sa-east-1

    • 亞太區域 (東京) — ap-northeast-1

    • 亞太區域 (首爾) — ap-northeast-2

    • 亞太區域 (孟買) — ap-south-1

    • 亞太區域 (雅加達) — ap-southeast-3

  • p4d.24xlarge

    • 美國東部 (維吉尼亞北部) — us-east-1

    • 美國東部 (俄亥俄) — us-east-2

    • 美國西部 (奧勒岡) — us-west-2

  • p4de.24xlarge

    • 美國東部 (維吉尼亞北部) — us-east-1

    • 美國西部 (奧勒岡) — us-west-2

  • trn1.32xlarge

    • 美國東部 (維吉尼亞北部) — us-east-1

    • 美國東部 (俄亥俄) — us-east-2

    • 美國西部 (加利佛尼亞北部) — us-west-1

    • 美國西部 (奧勒岡) — us-west-2

    • 歐洲 (斯德哥爾摩) — eu-north-1

    • 亞太區域 (孟買) — ap-south-1

    • 亞太區域 (雪梨) — ap-southeast-2

    • 亞太區域 (墨爾本) — ap-southeast-4

  • trn2.3xlarge

    • 亞太區域 (墨爾本) — ap-southeast-4

    • 南美洲 (聖保羅) — sa-east-1

  • trn2.48xlarge

    • 美國東部 (俄亥俄) — us-east-2

UltraServer 容量區塊

  • Trn2

    • 美國東部 (俄亥俄) — us-east-2

  • P6e-GB200

    • 達拉斯本地區域 (維吉尼亞北部) — us-east-1-dfw-2a

支援平台

ML 容量區塊目前支援具有預設租用的執行個體和 UltraServer。當您使用 AWS 管理主控台 購買容量區塊時,預設平台選項為 Linux/UNIX。當您使用 AWS Command Line Interface (AWS CLI) 或 AWS SDK 購買容量區塊時,可使用下列平台選項:

  • Linux/UNIX

  • Red Hat Enterprise Linux

  • RHEL with HA

  • SUSE Linux

  • Ubuntu Pro

考量事項

使用容量區塊之前,請考慮下列詳細資訊和限制。

  • 若偵測到影響 UltraServer 容量區塊的損壞,我們會通知您,但通常不會執行動作來終止容量區塊上的執行個體。這樣做是為了最大限度地減少對工作負載的非預期中斷。您可以在收到此通知後繼續使用 UltraServer 容量區塊,或藉由終止容量區塊上的所有執行個體並提交 AWS 支援案例來請求修復。收到您的支援案例之後,我們會在完成修復時通知您,並且您可在 UltraServer 容量區塊上重新啟動執行個體。

  • 若是 P6e-GB200 UltraServer 容量區塊,必須在容量區塊結束時間之前至少 60 分鐘終止您的執行個體。

  • 如需使用 P6e-GB200 UltraServer 容量區塊,必須選擇加入達拉斯本機區域 (維吉尼亞北部) 本機區域。

  • 每個容量區塊可包含最多 64 個執行個體,且跨容量區塊可包含最多 256 個執行個體。

  • 您可以描述最快 30 分鐘即可啟動的容量區塊供應項目。

  • 容量區塊在國際標準時間 (UTC) 上午 11 點 30 分結束。

  • 終止容量區塊中執行的執行個體程序會在保留的最後一天國際標準時間 (UTC) 上午 11 點開始。

  • 可以保留最多未來 8 週內的容量區塊。

  • 不可取消容量區塊。

  • 無法移動分割容量區塊。

  • 容量區塊無法跨 AWS 帳戶或在您的 AWS 組織內共用。

  • 僅 UltraServer 容量區塊可搭配資源群組使用。執行個體容量區塊不可搭配資源群組使用。如需詳細資訊,請參閱為 UltraServer 容量區塊建立一個資源群組

  • 組織中所有帳戶在容量區塊中可以保留的執行個體總數 AWS ,在特定日期不得超過 256 個執行個體。

  • 若要使用容量區塊,執行個體必須專門鎖定保留 ID。

  • 容量區塊中的執行個體不會計入您的隨需執行個體限制。

  • 對於使用自訂 AMI 的 P5 執行個體,請確保您擁有 EFA 所需的軟體和設定

  • 對於 Amazon EKS 受管節點群組,請參閱使用適用於 ML 的 Amazon EC2 容量區塊建立受管節點群組。對於 Amazon EKS 自我管理節點群組,請參閱使用自我管理節點來運用 ML 容量區塊

建立容量區塊後,您可以使用容量區塊執行以下操作:

如需 的詳細資訊 AWS ParallelCluster,請參閱什麼是 AWS ParallelCluster