適用於深度學習執行個體的 Amazon ECS 任務定義 - Amazon Elastic Container Service

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

適用於深度學習執行個體的 Amazon ECS 任務定義

若要在 Amazon ECS 上使用深度學習工作負載,請將 Amazon EC2 DL1 執行個體註冊到您的叢集。Amazon EC2 DL1 執行個體由 Habana 實驗室 (Intel 公司) 的 Gaudi 加速器提供。使用 Habana SynapseAI SDK 連線到 Habana Gaudi 加速器。SDK 支援流行的機器學習架構、TensorFlow 和 PyTorch。

考量事項

當您開始在 Amazon ECS 上部署 DL1 之前,請考量下列事項:

  • 您的叢集可包含 DL1 和非 DL1 執行個體組合。

  • 建立服務或執行獨立任務時,您可以在設定任務置放限制條件時使用執行個體類型屬性,以確定任務於指定的容器執行個體啟動。藉此可確保您的資源得到有效利用,並確保深度學習工作負載的任務位於 DL1 執行個體上。如需詳細資訊,請參閱Amazon ECS 如何在容器執行個體上放置任務

    以下範例在 default 叢集的 dl1.24xlarge 執行個體上執行任務。

    aws ecs run-task \ --cluster default \ --task-definition ecs-dl1-task-def \ --placement-constraints type=memberOf,expression="attribute:ecs.instance-type == dl1.24xlarge"

使用 DL1 AMI

對於在 Amazon EC2 DL1 執行個體上執行 Amazon ECS 的 AMI,您有三個選項: