딥 러닝 인스턴스에 대한 Amazon ECS 작업 정의 - Amazon Elastic Container Service

딥 러닝 인스턴스에 대한 Amazon ECS 작업 정의

Amazon ECS에서 딥 러닝 워크로드를 사용하려면 Amazon EC2 DL1 인스턴스를 클러스터에 등록합니다. Amazon EC2 DL1 인스턴스는 Habana Labs(Intel 회사)의 Gaudi 액셀러레이터로 구동됩니다. Habana SynapseAI SDK를 사용하여 Habana Gaudi 액셀러레이터에 연결합니다. SDK는 TensorFlow, PyTorch와 같은 인기 있는 기계 학습 프레임워크를 지원합니다.

고려 사항

Amazon ECS에 DL1 배포를 시작하기 전에 다음에 주의하세요.

  • 클러스터에 DL1과 DL1이 아닌 인스턴스가 혼재되어 있을 수 있습니다.

  • 서비스를 생성하거나 독립적 태스크를 실행할 경우 작업 배치 제약 조건을 구성할 때 인스턴스 유형 속성을 사용하여 태스크가 시작되는 지정 컨테이너 인스턴스를 확인할 수 있습니다. 또한, 리소스를 효과적으로 사용하고 딥 러닝 워크로드에 대한 태스크가 DL1 인스턴스에 있는지 확인할 수 있습니다. 자세한 정보는 Amazon ECS가 컨테이너 인스턴스에 작업을 배치하는 방법을 참조하세요.

    다음의 예제에서는 default 클러스터에 있는 dl1.24xlarge 인스턴스에서 태스크를 실행합니다.

    aws ecs run-task \ --cluster default \ --task-definition ecs-dl1-task-def \ --placement-constraints type=memberOf,expression="attribute:ecs.instance-type == dl1.24xlarge"

DL1 AMI 사용

Amazon ECS용 Amazon EC2 DL1 인스턴스에서 AMI를 실행하는 세 가지 옵션이 있습니다.

  • Habana에서 제공하는 AWS Marketplace AMI를 사용합니다(링크).

  • Amazon Web Services에서 제공하는 Habana 딥 러닝 AMI를 사용합니다. 이 AMI는 포함되어 있지 않으므로 Amazon ECS 컨테이너 에이전트를 별도로 설치해야 합니다.

  • Packer를 사용하여 GitHub 리포지토리에서 제공하는 사용자 지정 AMI를 빌드합니다. 자세한 정보는 Packer 설명서를 참조하세요.