전체 데이터 마이그레이션

전체 데이터 마이그레이션은 데이터 파일과 메타데이터를 다시 생성합니다. 이 접근 방식은 인플레이스 마이그레이션에 비해 시간이 더 오래 걸리고 추가 컴퓨팅 리소스가 필요합니다. 그러나 전체 데이터 마이그레이션은 테이블 품질을 개선하고 데이터 스토리지 및 액세스 패턴을 최적화할 수 있는 상당한 기회를 제공합니다.

전체 데이터 마이그레이션 중에 무결성과 정확성을 보장하기 위한 데이터 검증, 현재 요구 사항을 더 잘 충족하기 위한 스키마 수정, 쿼리 성능 개선을 위한 파티션 전략 조정과 같은 몇 가지 유용한 작업을 수행할 수 있습니다. 또한 데이터를 재정렬하여 일반적인 액세스 패턴을 최적화하고, 쿼리 효율성을 높이기 위해 Iceberg 숨겨진 파티셔닝을 구현하고, 원하는 경우 파일 형식 변환(예: CSV에서 Parquet으로)을 수행할 수 있습니다.

이러한 기능을 통해 전체 데이터 마이그레이션은 Iceberg 형식으로 전환하고 데이터 스토리지 전략을 포괄적으로 구체화하고 최적화하는 데 이상적입니다. 전체 데이터 마이그레이션에는 더 많은 시간과 리소스가 필요하지만 데이터 품질, 조직 및 쿼리 성능이 개선되면 장기적인 이점을 얻을 수 있습니다. 전체 데이터 마이그레이션을 구현하려면 다음 옵션 중 하나를 사용합니다.

Spark(Amazon EMR 또는) 또는 Athena에서 CREATE TABLE ... AS SELECT (CTAS AWS Glue) 문을 사용합니다. 및 TBLPROPERTIES 절을 사용하여 PARTITIONED BY 새 Iceberg 테이블에 대한 파티션 사양 및 테이블 속성을 설정할 수 있습니다. 소스 테이블에서 스키마 및 파티셔닝을 상속하는 대신 필요에 따라 새 테이블의 스키마 및 파티셔닝을 변경할 수 있습니다.
소스 테이블에서 읽고 Amazon EMR 또는의 Spark를 사용하여 데이터를 새 Iceberg 테이블로 작성합니다 AWS Glue. 자세한 내용은 Iceberg 설명서의 테이블 생성을 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

현재 위치 마이그레이션

마이그레이션 전략 선택