스키마 중첩 해제 및 데이터 파티셔닝
DynamoDB 및 SaaS 애플리케이션과 같은 NoSQL 데이터 소스로 작업하는 경우 데이터는 종종 분석에 고유한 문제를 초래합니다.
-
동일한 테이블 내의 레코드에 다른 스키마가 있을 수 있음
-
동일한 테이블 내에 중첩된 레코드가 다르게 표현될 수 있음
-
맵 및 배열과 같은 복잡한 중첩 구조에 효율적인 쿼리를 위한 변환이 필요함
-
규모에 맞는 쿼리 성능을 보장하려면 최적의 데이터 구성이 필요함
AWS Glue 제로 ETL 통합은 두 가지 강력한 기능을 통해 이러한 문제를 해결합니다.
-
스키마 중첩 해제: 복잡한 중첩된 데이터 구조를 분석하기 적합한 형식으로 자동으로 평면화하고 데이터 구조 보존과 쿼리 단순성 최적화 사이의 균형을 맞추기 위해 구성 가능한 수준의 중첩 해제 기능을 제공합니다.
-
데이터 파티셔닝: 지정된 열 또는 시간 기반 차원을 기반으로 데이터를 논리적 파티션으로 구성하여 쿼리 실행 중에 파티션 정리를 활성화함으로써 쿼리 성능을 개선하고 비용을 절감합니다.
이러한 데이터 소스를 효과적으로 쿼리하기 위해 AWS Glue 제로 ETL은 대상 AWS Glue 데이터베이스에서 복제되는 소스 데이터에 대한 기본 스키마 처리 및 파티셔닝 스키마를 제공합니다. CreateIntegrationTableProperty API를 통해 각 테이블에 대한 스키마 중첩 해제 및 파티셔닝 설정을 구성하여 분석 워크로드에 맞게 데이터를 구조화하고 구성하는 방법을 세부적으로 제어할 수 있습니다.
기본 중첩 해제 및 파티셔닝 동작
-
대상 테이블에 대한 중첩 해제 옵션이 제공되지 않은 경우 AWS Glue 제로 ETL은 기본적으로 전체 중첩 해제로 설정됩니다.
-
대상 테이블에 PartitionSpec이 제공되지 않은 경우 AWS Glue 제로 ETL은 기본적으로 버킷 파티셔닝으로 설정됩니다.