Amazon-ECS-Aufgabendefinitionen für Deep-Learning-Instances - Amazon Elastic Container Service

Amazon-ECS-Aufgabendefinitionen für Deep-Learning-Instances

Um Deep-Learning-Workloads auf Amazon ECS zu verwenden, registrieren Sie Amazon-EC2-DL1-Instances für Ihre Cluster. Amazon-EC2-DL1-Instances basieren auf Gaudi-Accelerators von Habana Labs (einem Intel-Unternehmen). Verwenden Sie das Habana SynapSeai SDK, um eine Verbindung zu den Habana Gaudi-Accelerators herzustellen. Das SDK unterstützt verbreitete Machine Learning-Frameworks wie TensorFlow und PyTorch.

Überlegungen

Seien Sie sich der folgenden Überlegungen bewusst, bevor Sie mit der Bereitstellung von DL1 auf Amazon ECS beginnen:

  • Ihre Cluster können eine Mischung aus DL1- und Nicht-DL1-Instances enthalten.

  • Wenn Sie eine eigenständige Aufgabe ausführen oder einen Service erstellen, können Sie insbesondere beim Konfigurieren der Aufgabenplatzierungsbedingungen sicherstellen, dass Ihre Aufgabe auf der von Ihnen angegebenen Container-Instance gestartet wird. Dadurch wird sichergestellt, dass Ihre Ressourcen effektiv eingesetzt werden und dass sich Ihre Aufgaben für Deep-Learning-Workloads auf Ihren DL1-Instances befinden. Weitere Informationen finden Sie unter So platziert Amazon ECS Aufgaben in Container-Instances.

    Im folgenden Beispiel wird eine Aufgabe für eine dl1.24xlarge-Instance auf Ihrem default-Cluster ausgeführt.

    aws ecs run-task \ --cluster default \ --task-definition ecs-dl1-task-def \ --placement-constraints type=memberOf,expression="attribute:ecs.instance-type == dl1.24xlarge"

Verwenden eines DL1-AMI

Sie haben drei Möglichkeiten, ein AMI auf Amazon-EC2-DL1-Instances für Amazon ECS auszuführen:

  • AWS MarketplaceAMIs, die von Habana hier bereitgestellt werden.

  • Habana Deep Learning AMIs, die von Amazon Web Services bereitgestellt werden. Weil er nicht enthalten ist, müssen Sie den Amazon-ECS-Container-Agent separat installieren.

  • Erstellen Sie mithilfe von Packer ein benutzerdefiniertes AMI, das im GitHub-Repository bereitgestellt wird. Weitere Informationen finden Sie in der Packer-Dokumentation.