AWS Outposts의 EMR 클러스터 - Amazon EMR

AWS Outposts의 EMR 클러스터

Amazon EMR 버전 5.28.0부터 AWS Outposts에서 EMR 클러스터를 생성하고 실행할 수 있습니다. AWS Outposts를 사용하면 온프레미스 시설에서 기본 AWS 서비스, 인프라 및 운영 모델을 사용할 수 있습니다. AWS Outposts 환경에서는 AWS 클라우드에서 사용하는 것과 동일한 AWS API, 도구 및 인프라를 사용할 수 있습니다. AWS Outposts의 Amazon EMR은 온프레미스 데이터 및 애플리케이션과 매우 가까운 거리에서 실행해야 하는 지연 시간이 짧은 워크로드에 이상적입니다. AWS Outposts에 대한 자세한 내용은 AWS Outposts 사용 설명서를 참조하세요.

사전 조건

다음은 AWS Outposts에서 Amazon EMR을 사용하기 위한 필수 조건입니다.

  • 온프레미스 데이터 센터에서 AWS Outposts를 설치하고 구성해야 합니다.

  • Outpost 환경과 AWS 리전 간에 안정적인 네트워크 연결이 있어야 합니다.

  • Outpost에서 사용할 수 있는 Amazon EMR 지원 인스턴스 유형에 대한 충분한 용량이 있어야 합니다.

제한 사항

AWS Outposts에서 Amazon EMR을 사용하는 경우 제한 사항은 다음과 같습니다.

  • 온디맨드 인스턴스는 Amazon EC2 인스턴스에서 지원되는 유일한 옵션입니다. AWS Outposts의 Amazon EMR에서는 스팟 인스턴스를 사용할 수 없습니다.

  • 추가 Amazon EBS 스토리지 볼륨이 필요한 경우 범용 SSD(GP2)만 지원됩니다.

  • Amazon EMR 릴리스 5.28~6.x에서 AWS Outposts를 사용하는 경우 사용자가 지정한 AWS 리전에 객체를 저장하는 S3 버킷만 사용할 수 있습니다. Amazon EMR 7.0.0 이상에서는 S3A의 Amazon EMR이 AWS Outposts 파일 시스템 클라이언트, 접두사 s3a://를 사용하여 지원됩니다.

  • AWS Outposts의 Amazon EMR에서는 다음과 같은 인스턴스 유형만 지원됩니다.

    인스턴스 클래스 인스턴스 타입
    범용

    m5.xlarge | m5.2xlarge | m5.4xlarge | m5.12xlarge | m5.24xlarge | m5d.xlarge | m5d.2xlarge | m5d.4xlarge | m5d.12xlarge | m5d.24xlarge

    컴퓨팅 최적화

    c5.xlarge | c5.2xlarge | c5.4xlarge | c5.18xlarge | c5d.xlarge | c5d.2xlarge | c5d.4xlarge | c5d.18xlarge

    메모리 최적화

    r5.xlarge | r5.2xlarge | r5.4xlarge | r5.12xlarge | r5d.xlarge | r5d.2xlarge | r5d.4xlarge | r5d.12xlarge | r5d.24xlarge

    스토리지 최적화

    i3en.xlarge | i3en.2xlarge | i3en.3xlarge | i3en.6xlarge | i3en.12xlarge | i3en.24xlarge

네트워크 연결 고려 사항

  • Outpost와 AWS 리전 간 네트워크 연결이 끊어지더라도 클러스터는 계속 실행됩니다. 하지만 연결이 복원될 때까지 새 클러스터를 생성하거나 기존 클러스터에 대해 새 태스크를 수행할 수 없습니다. 인스턴스에 장애가 발생한 경우 인스턴스는 자동으로 교체되지 않습니다. 또한 실행 중인 클러스터에 단계 추가, 단계 실행 상태 확인, CloudWatch 지표 및 이벤트 전송 등의 작업이 지연됩니다.

  • Outpost와 AWS 리전 간에 안정적이고 가용성 높은 네트워크 연결을 제공하는 것이 좋습니다. Outpost와 AWS 리전 간의 네트워크 연결이 몇 시간 이상 끊어지면 종료 방지가 활성화된 클러스터는 계속 실행되고, 종료 방지가 비활성화된 클러스터는 종료될 수 있습니다.

  • 일상적인 유지 관리로 인해 네트워크 연결이 영향을 받는 경우 사전 예방적으로 종료 방지를 활성화하는 것이 좋습니다. 일반적으로 연결이 중단되면 Outpost 또는 고객 네트워크에 대해 로컬이 아닌 외부 종속 항목에는 액세스할 수 없습니다. 여러 프라이머리 노드가 있는 Amazon EMR 클러스터에 리전 내 인스턴스를 사용하는 경우 여기에는 Amazon S3, EMRFS 일관된 보기와 함께 사용되는 DynamoDB, Amazon RDS가 포함됩니다.

AWS Outposts에서 Amazon EMR 클러스터 생성

AWS Outposts에서 Amazon EMR 클러스터를 생성하는 것은 AWS 클라우드에서 Amazon EMR 클러스터를 생성하는 것과 유사합니다. AWS Outposts에서 Amazon EMR 클러스터를 생성할 때 Outpost와 연결된 Amazon EC2 서브넷을 지정해야 합니다.

Amazon VPC는 AWS 리전의 모든 가용 영역에 걸쳐 있을 수 있습니다. AWS Outposts는 가용 영역의 확장이며, 한 계정의 Amazon VPC를 여러 가용 영역 및 관련 Outpost 위치에 걸쳐 확장할 수 있습니다. Outpost를 구성할 때 리전 환경을 온프레미스 시설로 확장하려면 서브넷과 연결합니다. Outpost 인스턴스 및 관련 서비스는 연결된 서브넷이 있는 가용 영역과 마찬가지로, 리전 VPC의 일부로 나타납니다. 자세한 내용은 AWS Outposts 사용 설명서를 참조하세요.

콘솔

AWS Management 콘솔을 사용하여 AWS Outposts에서 새 Amazon EMR 클러스터를 생성하려면 Outpost와 연결된 Amazon EC2 서브넷을 지정합니다.

Console
콘솔을 사용하여 AWS Outposts에서 클러스터를 생성하는 방법
  1. AWS Management 콘솔에 로그인한 후 https://console.aws.amazon.com/emr에서 Amazon EMR 콘솔을 엽니다.

  2. 왼쪽 탐색 창의 EMR on EC2에서 클러스터를 선택하고 클러스터 생성을 선택합니다.

  3. 클러스터 구성DPTJ 인스턴스 그룹 또는 인스턴스 플릿을 선택합니다. 그런 다음 EC2 인스턴스 유형 선택 드롭다운 메뉴에서 인스턴스 유형을 선택하거나 작업을 선택하고 EBS 볼륨 추가를 선택합니다. Amazon EMR on AWS Outposts에서는 제한된 Amazon EBS 볼륨 및 인스턴스 유형을 지원합니다.

  4. 네트워킹에서 Outpost ID가 op-123456789 형식인 EC2 서브넷을 선택합니다.

  5. 클러스터에 적용할 다른 옵션을 선택합니다.

  6. 클러스터를 시작하려면 클러스터 생성을 선택합니다.

CLI
AWS CLI를 사용하여 AWS Outposts에서 클러스터를 생성하는 방법
  • AWS CLI를 사용하여 AWS Outposts에서 새 Amazon EMR 클러스터를 생성하려면 다음 예제와 같이 Outpost와 연결된 EC2 서브넷을 지정합니다. subnet-22XXXX01을 Amazon EC2 서브넷 ID로 바꿉니다.

    aws emr create-cluster \ --name "Outpost cluster" \ --release-label emr-7.10.0 \ --applications Name=Spark \ --ec2-attributes KeyName=myKey SubnetId=subnet-22XXXX01 \ --instance-type m5.xlarge --instance-count 3 --use-default-roles