전체 데이터 마이그레이션 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

전체 데이터 마이그레이션

전체 데이터 마이그레이션은 데이터 파일과 메타데이터를 다시 생성합니다. 이 접근 방식은 인플레이스 마이그레이션에 비해 시간이 더 오래 걸리고 추가 컴퓨팅 리소스가 필요합니다. 그러나 전체 데이터 마이그레이션은 테이블 품질을 개선하고 데이터 스토리지 및 액세스 패턴을 최적화할 수 있는 상당한 기회를 제공합니다.

전체 데이터 마이그레이션 중에 무결성과 정확성을 보장하기 위한 데이터 검증, 현재 요구 사항을 더 잘 충족하기 위한 스키마 수정, 쿼리 성능 개선을 위한 파티션 전략 조정과 같은 몇 가지 유용한 작업을 수행할 수 있습니다. 또한 데이터를 재정렬하여 일반적인 액세스 패턴을 최적화하고, 쿼리 효율성을 높이기 위해 Iceberg 숨겨진 파티셔닝을 구현하고, 원하는 경우 파일 형식 변환(예: CSV에서 Parquet으로)을 수행할 수 있습니다.

이러한 기능을 통해 전체 데이터 마이그레이션은 Iceberg 형식으로 전환하고 데이터 스토리지 전략을 포괄적으로 구체화하고 최적화하는 데 이상적입니다. 전체 데이터 마이그레이션에는 더 많은 시간과 리소스가 필요하지만 데이터 품질, 조직 및 쿼리 성능이 개선되면 장기적인 이점을 얻을 수 있습니다. 전체 데이터 마이그레이션을 구현하려면 다음 옵션 중 하나를 사용합니다.

  • Spark(Amazon EMR 또는) 또는 Athena에서 CREATE TABLE ... AS SELECT (CTAS AWS Glue) 문을 사용합니다. 및TBLPROPERTIES 절을 사용하여PARTITIONED BY 새 Iceberg 테이블에 대한 파티션 사양 및 테이블 속성을 설정할 수 있습니다. 소스 테이블에서 스키마 및 파티셔닝을 상속하는 대신 필요에 따라 새 테이블의 스키마 및 파티셔닝을 변경할 수 있습니다.

  • Amazon EMR 또는의 Spark를 사용하여 소스 테이블에서 읽고 데이터를 새 Iceberg 테이블로 작성합니다 AWS Glue. 자세한 내용은 Iceberg 설명서의 테이블 생성을 참조하세요.