AWS Glue 작업자 유형 - AWS Glue

AWS Glue 작업자 유형

개요

AWS Glue는 소규모 스트리밍 작업부터 메모리 집약적인 대규모 데이터 처리 작업에 이르기까지 다양한 워크로드 요구 사항을 수용할 수 있는 여러 작업자 유형을 제공합니다. 이 섹션에서는 사용 가능한 모든 작업자 유형, 사양 및 사용 권장 사항과 관련된 포괄적인 정보를 제공합니다.

작업자 유형 범주

AWS Glue는 두 가지의 주요 작업자 유형 범주를 제공합니다.

  • G 작업자 유형: 표준 ETL 워크로드에 최적화된 범용 컴퓨팅 작업자

  • R 작업자 유형: 메모리 집약적 Spark 애플리케이션에 맞춰 설계된 메모리 최적화 작업자

데이터 처리 단위(DPU)

AWS Glue 작업자에서 사용할 수 있는 리소스는 DPU 단위로 측정됩니다. DPU는 4 vCPU의 컴퓨팅 파워와 16GB 메모리로 구성된 프로세싱 파워의 상대적 측정값입니다.

메모리 최적화 DPU(M-DPU): R 유형 작업자는 표준 DPU와 비교해 정해진 크기에서 2배의 메모리 할당을 제공하는 M-DPU를 사용합니다. 즉, 표준 DPU는 16GB의 메모리를 제공하지만 R 유형 작업자의 M-DPU는 메모리 집약적 Spark 애플리케이션에 최적화된 32GB의 메모리를 제공합니다.

사용 가능한 작업자 유형

G.1X - 표준 작업자

  • DPU: DPU 1개(vCPU 4개, 메모리 16GB)

  • 스토리지: 94GB 디스크(약 44GB 무료)

  • 사용 사례: 데이터 변환, 조인 및 쿼리(대부분의 작업에 대해 확장 가능하고 비용 효율적)

G.2X - 표준 작업자

  • DPU: DPU 2개(vCPU 8개, 메모리 32GB)

  • 스토리지: 138GB 디스크(약 78GB 무료)

  • 사용 사례: 데이터 변환, 조인 및 쿼리(대부분의 작업에 대해 확장 가능하고 비용 효율적)

G.4X - 대형 작업자

  • DPU: DPU 4개(vCPU 16개, 메모리 64GB)

  • 스토리지: 256GB 디스크(약 230GB 무료)

  • 사용 사례: 까다로운 변환, 집계, 조인 및 쿼리

G.8X - 중대형 작업자

  • DPU: DPU 8개(vCPU 32개, 메모리 128GB)

  • 스토리지: 512GB 디스크(약 485GB 무료)

  • 사용 사례: 가장 까다로운 변환, 집계, 조인 및 쿼리

G.12X - 초대형 작업자*

  • DPU: DPU 12개(vCPU 48개, 메모리 192GB)

  • 스토리지: 768GB 디스크(약 741GB 무료)

  • 사용 사례: 상당한 컴퓨팅 용량이 필요한 초대규모 및 리소스 집약적 워크로드

G.16X - 최대 작업자*

  • DPU: DPU 16개(vCPU 64개, 메모리 256GB)

  • 스토리지: 1,024GB 디스크(약 996GB 무료)

  • 사용 사례: 최대한의 컴퓨팅 용량이 필요한 최대규모 리소스 집약적 워크로드

R.1X - 메모리 최적화 소형*

  • DPU: M-DPU 1개(vCPU 4개, 메모리 32GB)

  • 사용 사례: 메모리 부족 오류가 자주 발생하거나 메모리 대비 CPU 비율이 높은 메모리 집약적 워크로드

R.2X - 메모리 최적화 중형*

  • DPU: M-DPU 2개(vCPU 8개, 메모리 64GB)

  • 사용 사례: 메모리 부족 오류가 자주 발생하거나 메모리 대비 CPU 비율이 높은 메모리 집약적 워크로드

R.4X - 메모리 최적화 대형*

  • DPU: M-DPU 4개(vCPU 16개, 메모리 128GB)

  • 사용 사례: 메모리 부족 오류가 자주 발생하거나 메모리 대비 CPU 비율이 높은 대형 메모리 집약적 워크로드

R.8X - 메모리 최적화 중대형*

  • DPU: M-DPU 8개(vCPU 32개, 메모리 256GB)

  • 사용 사례: 메모리 부족 오류가 자주 발생하거나 메모리 대비 CPU 비율이 높은 초대형 메모리 집약적 워크로드

* 작업자의 시작 지연 시간이 길어질 수 있습니다. 다음에 따라 문제를 해결하세요.

  • 몇 분 정도 기다린 후 다시 작업을 제출합니다.

  • 작업자 수를 줄여 새 작업을 제출합니다.

  • 다른 작업자 유형 또는 크기를 사용하여 새 작업을 제출합니다.

작업자 유형 사양 표

작업자 유형 사양
작업자 유형 노드당 DPU vCPU 메모리(GB) 디스크(GB) 디스크 여유 공간(GB) 노드당 Spark 실행기
G.1X 1 4 16 94 44 1
G.2X 2 8 32 138 78 1
G.4X 4 16 64 256 230 1
G.8X 8 32 128 512 485 1
G.12X 12 48 192 768 741 1
G.16X 16 64 256 1024 996 1

참고: R 작업자 유형에는 사양이 메모리 집약적 워크로드에 최적화된 메모리 최적화 구성이 있습니다.

중요 고려 사항

시작 지연 시간

중요

G.12X 및 G.16X 작업자 유형과 모든 R 작업자 유형(R.1X~R.8X)의 경우 시작 지연 시간이 길어질 수 있습니다. 다음에 따라 문제를 해결하세요.

  • 몇 분 정도 기다린 후 다시 작업을 제출합니다.

  • 작업자 수를 줄여 새 작업을 제출합니다.

  • 다른 작업자 유형 및 크기를 사용하여 새 작업을 제출합니다.

올바른 작업자 유형 선택

표준 ETL 워크로드

  • G.1X 또는 G.2X: 일반적인 데이터 변환, 조인 및 쿼리에 가장 비용 효율적

  • G.4X 또는 G.8X: 데이터세트가 더 큰 워크로드

대규모 워크로드

  • G.12X: 상당한 컴퓨팅 리소스가 필요한 초대형 데이터세트

  • G.16X: 최대 컴퓨팅 용량으로 가장 까다로운 워크로드 지원

메모리 집약적 워크로드

  • R.1X 또는 R.2X: 소형에서 중형 메모리 집약적 작업

  • R.4X 또는 R.8X: OOM 오류가 자주 발생하는 대형 메모리 집약적 워크로드

비용 최적화 고려 사항

  • 표준 G 작업자: 컴퓨팅, 메모리 및 네트워킹 리소스의 균형을 맞추고, 저렴한 비용으로 다양한 워크로드에 사용 가능

  • R 작업자: 워크로드에서 빠른 성능을 발휘하는 메모리 집약적 작업에 특화되어 메모리에서 대규모 데이터세트 처리

모범 사례

작업자 선택 지침

  1. 대부분의 워크로드에서 표준 작업자로 시작(G.1X, G.2X)

  2. 메모리 부족 오류가 자주 발생하거나 캐싱, 셔플링 및 집계와 같은 메모리 집약적 작업이 포함된 워크로드의 경우 R 작업자 사용

  3. 최대 리소스가 필요한 컴퓨팅 집약적 워크로드의 경우 G.12X/G.16X 고려

  4. 시간에 민감한 워크플로에서 새 작업자 유형을 사용할 때 용량 제약 조건 고려

성능 최적화

  • CloudWatch 지표를 모니터링하여 리소스 사용률 파악

  • 데이터 크기 및 복잡성을 기반으로 적절한 작업자 수 사용

  • 데이터 파티셔닝 전략을 고려하여 작업자 효율성 최적화