모범 사례 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

모범 사례

아카이브된 데이터에 액세스하기 위해 다음 모범 사례를 따르는 것이 좋습니다.

  • 방대한 아카이브 데이터세트의 경우 Athena 및 Amazon Redshift와 같은 쿼리 엔진을 사용하여 읽을 수 있도록 데이터를 기반으로 AWS Glue 테이블을 생성하는 것이 좋습니다. Athena와 Amazon Redshift 모두 쿼리 성능의 수평적 스케일링을 제공합니다. 또한 일회성 쿼리 시나리오에서 비용 효율적인 쿼리 기반 요금제 모델을 사용합니다. Amazon Redshift에는 내부적으로 고급 쿼리 액셀러레이터(AQUA) 엔진이 있어 이를 통해 추가 비용 없이 읽기 성능을 높일 수 있습니다.

  • Amazon S3에서 정기적으로 오프로드되는 아카이브된 데이터는 힙 덤프로 저장해서는 안 됩니다. 대신 새 파티션으로 저장되어야 합니다. 날짜 파티션은 데이터를 날짜 차원(예: year=<value>/month=<value>/day=<value>)으로 구분합니다. 이는 다음과 같은 두 가지 상황에서 매우 유용합니다.

    • AWS Glue 테이블이 AWS Glue 크롤러에 의해 생성되는 경우 이러한 파티션은 의사 열 역할을 합니다. 이렇게 하면 스캔한 데이터를 범위 쿼리의 파티션으로 제한하여 읽기 성능이 향상됩니다.

    • 이 방식은 객체의 하위 세트만 S3 Standard로 복원할 때 S3 Glacier 복원 작업에 도움이 됩니다.

  • AWS Glue 크롤러는 Amazon S3에 저장되어 있는 아카이브된 데이터가 물리적으로 분할될 때 더욱 유용합니다. 데이터가 새 접두사 파티션으로 오프로드될 때마다 크롤러는 새 파티션만 스캔하고 해당 파티션의 메타데이터를 업데이트합니다. 테이블의 스키마가 변경되면 이러한 변경 사항이 파티션 수준 메타데이터에서 캡처됩니다.