일반 모범 사례 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

일반 모범 사례

사용 사례에 관계없이에서 Apache Iceberg를 사용하는 경우 다음 일반 모범 사례를 따르는 AWS것이 좋습니다.

  • Iceberg 형식 버전 2를 사용합니다.

    Athena는 기본적으로 Iceberg 형식 버전 2를 사용합니다.

    Amazon EMR 또는에서 Spark AWS Glue 를 사용하여 Iceberg 테이블을 생성하는 경우 Iceberg 설명서에 설명된 대로 형식 버전을 지정합니다.

  • 를 데이터 카탈로그 AWS Glue Data Catalog 로 사용합니다.

    Athena는 AWS Glue Data Catalog 기본적으로를 사용합니다.

    Amazon EMR 또는에서 Spark AWS Glue 를 사용하여 Iceberg로 작업하는 경우 AWS Glue 데이터 카탈로그를 사용하려면 Spark 세션에 다음 구성을 추가합니다. 자세한 내용은이 가이드 앞부분의 AWS Glue에서 Iceberg에 대한 Spark 구성 섹션을 참조하세요.

    "spark.sql.catalog.<your_catalog_name>.catalog-impl": "org.apache.iceberg.aws.glue.GlueCatalog"
  • 를 잠금 관리자 AWS Glue Data Catalog 로 사용합니다.

    Athena는 기본적으로 Iceberg 테이블에 대해를 잠금 관리자 AWS Glue Data Catalog 로 사용합니다.

    Amazon EMR 또는에서 Spark AWS Glue 를 사용하여 Iceberg로 작업하는 경우를 잠금 관리자 AWS Glue Data Catalog 로 사용하도록 Spark 세션 구성을 구성해야 합니다. 자세한 내용은 Iceberg 설명서의 낙관적 잠금을 참조하세요.

  • Zstandard(ZSTD) 압축을 사용합니다.

    Iceberg의 기본 압축 코덱은 gzip이며, 테이블 속성를 사용하여 수정할 수 있습니다write.<file_type>.compression-codec. Athena는 이미 Iceberg 테이블의 기본 압축 코덱으로 ZSTD를 사용합니다.

    일반적으로 ZSTD 압축 코덱을 사용하는 것이 좋습니다. GZIP과 Snappy 간의 균형을 맞추고 압축 비율을 손상시키지 않으면서 우수한 읽기/쓰기 성능을 제공하기 때문입니다. 또한 필요에 맞게 압축 수준을 조정할 수 있습니다. 자세한 내용은 Athena 설명서의 Athena의 ZSTD 압축 수준을 참조하세요.

    Snappy는 최상의 전체 읽기 및 쓰기 성능을 제공할 수 있지만 GZIP 및 ZSTD보다 압축률이 낮습니다. Amazon S3에 더 큰 데이터 볼륨을 저장하더라도 성능에 우선순위를 두면 Snappy가 최적의 선택일 수 있습니다.