고려 사항 및 제한 사항
이 섹션에는 AWS Glue Data Catalog 내에서 테이블 최적화 프로그램을 사용할 때 고려할 사항이 포함되어 있습니다.
관리형 데이터 압축에 지원되는 형식 및 제한 사항
데이터 압축은 암호화된 테이블에서 데이터를 읽는 것을 비롯하여, 데이터 읽기 및 쓰기를 위한 다양한 데이터 형식 및 압축 형식을 지원합니다.
동시성 제어:
Apache Iceberg는 여러 작성자가 동시에 작업을 수행할 수 있도록 낙관적 동시성 제어를 지원합니다. 충돌은 커밋 시 감지되고 해결됩니다. 스트리밍 파이프라인으로 작업할 때는 동시 쓰기를 효과적으로 처리할 수 있도록 테이블 속성 및 압축 설정을 통해 적절한 재시도 설정을 구성합니다. 자세한 지침은 Iceberg 테이블의 동시 쓰기 관리에 대한 AWS 빅 데이터 블로그(https://aws.amazon.com/blogs/big-data/manage-concurrent-write-conflicts-in-apache-iceberg-on-the-aws-glue-data-catalog/)를 참조하세요.
압축 재시도:
압축 작업이 4회 연속으로 실패하면 불필요한 컴퓨팅 리소스 소비를 방지하기 위해 AWS Glue 카탈로그 테이블 최적화 기능이 최적화 프로그램을 자동으로 일시 중지합니다. 먼저 로그를 조사하여 압축이 반복적으로 실패하는 이유를 알아보세요. 압축 최적화를 재개하려면 AWS Glue 콘솔 또는 API를 통해 최적화 프로그램을 다시 활성화하면 됩니다.
데이터 압축은 다음을 지원합니다.
암호화 - 데이터 압축은 기본 Amazon S3 암호화(SSE-S3) 및 서버 측 KMS 암호화(SSE-KMS)만 지원합니다.
압축 전략 - Binpack, Sort, Z-order 정렬
-
기본 데이터를 저장하는 Amazon S3 버킷이 다른 계정에 있는 경우 데이터 카탈로그가 있는 계정에서 압축을 실행할 수 있습니다. 이렇게 하려면 압축 역할에 Amazon S3 버킷에 대한 액세스 권한이 필요합니다.
데이터 압축은 현재 다음을 지원하지 않습니다.
-
교차 계정 테이블에서의 압축 - 교차 계정 테이블에서는 압축을 실행할 수 없습니다.
-
교차 리전 테이블에서의 압축 - 교차 리전 테이블에서는 압축을 실행할 수 없습니다.
리소스 링크에서 압축 활성화
-
Amazon S3 Express One Zone 스토리지 클래스의 테이블 - S3 Express One Zone Iceberg 테이블에서는 압축을 실행할 수 없습니다.
Z-order 압축 전략에서 지원하지 않는 데이터 유형:
10진수
TimestampWithoutZone
스냅샷 보존 및 분리된 파일 삭제 최적화 프로그램에 대한 고려 사항
스냅샷 보존 및 분리된 파일 삭제 최적화 프로그램에 다음 고려 사항이 적용됩니다.
스냅샷 보존 및 분리된 파일 삭제 프로세스의 최대 삭제량은 실행당 1,000,000개의 파일입니다. 만료된 스냅샷을 삭제할 때 삭제할 수 있는 파일 수가 1,000,000개를 초과하면 해당 임곗값을 초과하는 나머지 파일은 계속 분리된 파일로 테이블 스토리지에 남아 있게 됩니다.
-
스냅샷은 두 기준(보존할 최소 스냅샷 수 및 지정된 보존 기간)이 모두 충족되는 경우에만 스냅샷 보존 최적화 프로그램에서 보존합니다.
-
스냅샷 보존 최적화 프로그램은 Apache Iceberg에서 만료된 스냅샷 메타데이터를 삭제하여 만료된 스냅샷에 대한 시간 이동 쿼리를 방지하고 선택적으로 연결된 데이터 파일을 삭제합니다.
-
분리된 파일 삭제 최적화 프로그램은 생성 시간이 최적화 프로그램이 실행된 시점부터 분리된 파일 삭제 보존 기간보다 이전인 경우 Iceberg 메타데이터에서 더 이상 참조하지 않는 분리된 데이터 및 메타데이터 파일을 삭제합니다.
-
Apache Iceberg는 특정 스냅샷 상태에 대한 명명된 포인터에 해당하는 브랜치와 태그를 통해 버전 제어를 용이하게 합니다. 각 브랜치와 태그는 각 수준에서 정의된 보존 정책에 따라 자체 독립 수명 주기를 따릅니다. AWS Glue Data Catalog 최적화 프로그램은 이러한 수명 주기 정책을 고려하여 지정된 보존 규칙을 준수하도록 합니다. 브랜치 및 태그 수준 보존 정책은 최적화 프로그램 구성보다 우선합니다.
자세한 내용은 Apache Iceberg 설명서의 Branching and Tagging
을 참조하세요. -
스냅샷 보존 및 분리된 파일 삭제 최적화 프로그램은 구성된 파라미터에 따라 정리 대상인 파일을 삭제합니다. 적절한 버킷에 S3 버전 관리 및 수명 주기 정책을 구현하여 파일 삭제에 대한 제어를 강화합니다.
버전 관리 설정 및 수명 주기 규칙 생성에 대한 자세한 지침은 https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html 섹션을 참조하세요.
-
적절한 고립 파일을 결정하려면 제공된 테이블 위치와 하위 경로가 다른 테이블 또는 데이터 소스의 데이터와 겹치거나 포함되지 않도록 해야 합니다. 경로가 겹치면 의도하지 않은 파일 삭제로 인해 복구할 수 없는 데이터 손실 위험이 있습니다.
OversizedAllocationException 예외 디버깅
OversizedAllocationException 예외를 해결하려면
벡터화된 리더의 배치 크기를 줄이고 확인합니다. 기본 배치 크기는 5000입니다. 이 설정은
read.parquet.vectorization.batch-size에서 제어합니다.여러 변형 후에도 작동하지 않는 경우 벡터화를 끕니다. 이 설정은
read.parquet.vectorization.enabled에서 제어합니다.여러 변형 후에도 작동하지 않는 경우 벡터화를 끕니다. 이 설정은
read.parquet.vectorization.enabled에서 제어합니다.