마이그레이션 전략 선택 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

마이그레이션 전략 선택

Iceberg 형식으로 전환할 때는 현재 위치 마이그레이션과 전체 마이그레이션 중에서 선택하는 것이 중요합니다. 특정 요구 사항에 가장 적합한 접근 방식을 결정하려면 다음 질문과 권장 사항을 고려하세요.

질문 권장 사항

데이터 파일 형식(예: CSV 또는 Apache Parquet)은 무엇입니까?

  • 테이블 파일 형식이 Parquet, ORC 또는 Avro인 경우 현재 위치 마이그레이션을 고려하세요.

  • CSV, JSON 등과 같은 다른 형식의 경우 전체 데이터 마이그레이션을 사용합니다.

테이블 스키마를 업데이트하거나 통합하시겠습니까?

  • Iceberg 네이티브 기능을 사용하여 테이블 스키마를 발전시키려면 인플레이스 마이그레이션을 고려하세요. 예를 들어 마이그레이션 후 열의 이름을 바꿀 수 있습니다. (스키마는 Iceberg 메타데이터 계층에서 변경할 수 있습니다.)

  • 더 이상 필요하지 않기 때문에 전체 열을 제거하려면 전체 데이터 마이그레이션을 사용하는 것이 좋습니다.

파티션 전략을 변경하면 테이블이 이점을 얻을 수 있나요?

  • Iceberg의 파티셔닝 접근 방식이 요구 사항을 충족하는 경우(예: 기존 파티션이 그대로 유지되는 동안 새 파티션 레이아웃을 사용하여 새 데이터가 저장됨) 인플레이스 마이그레이션을 고려하세요.

  • 테이블에 숨겨진 파티션을 사용하려면 전체 데이터 마이그레이션을 고려하세요. 숨겨진 파티션에 대한 자세한 내용은 모범 사례 섹션을 참조하세요.

테이블이 정렬 순서 전략을 추가하거나 변경하면 도움이 됩니까?

  • 데이터의 정렬 순서를 추가하거나 변경하려면 데이터 세트를 다시 작성해야 합니다. 이 경우 전체 데이터 마이그레이션을 사용하는 것이 좋습니다.

  • 모든 테이블 파티션을 다시 작성하는 데 엄청난 비용이 드는 대형 테이블의 경우 인플레이스 마이그레이션을 사용하고 가장 자주 액세스하는 파티션에 대해 압축(정렬이 활성화된 상태)을 실행하는 것이 좋습니다.

테이블에 작은 파일이 많이 있습니까?

  • 작은 파일을 더 큰 파일로 병합하려면 데이터 세트를 다시 작성해야 합니다. 이 경우 전체 데이터 마이그레이션을 사용하는 것이 좋습니다.

  • 모든 테이블 파티션을 다시 작성하는 데 엄청난 비용이 드는 대형 테이블의 경우 인플레이스 마이그레이션을 사용하고 가장 자주 액세스하는 파티션에 대해 압축(정렬이 활성화된 상태)을 실행하는 것이 좋습니다.