기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
일반 모범 사례
사용 사례에 관계없이에서 Apache Iceberg를 사용하는 경우 다음 일반 모범 사례를 따르는 AWS것이 좋습니다.
-
Iceberg 형식 버전 2를 사용합니다.
Athena는 기본적으로 Iceberg 형식 버전 2를 사용합니다.
Amazon EMR 또는에서 Spark AWS Glue 를 사용하여 Iceberg 테이블을 생성하는 경우 Iceberg 설명서에
설명된 대로 형식 버전을 지정합니다. -
를 데이터 카탈로그 AWS Glue Data Catalog 로 사용합니다.
Athena는 AWS Glue Data Catalog 기본적으로를 사용합니다.
Amazon EMR 또는에서 Spark AWS Glue 를 사용하여 Iceberg로 작업하는 경우 AWS Glue 데이터 카탈로그를 사용하려면 Spark 세션에 다음 구성을 추가합니다. 자세한 내용은이 가이드 앞부분의 AWS Glue에서 Iceberg에 대한 Spark 구성 섹션을 참조하세요.
"spark.sql.catalog.<your_catalog_name>.catalog-impl": "org.apache.iceberg.aws.glue.GlueCatalog"
-
를 잠금 관리자 AWS Glue Data Catalog 로 사용합니다.
Athena는 기본적으로 Iceberg 테이블에 대해를 잠금 관리자 AWS Glue Data Catalog 로 사용합니다.
Amazon EMR 또는에서 Spark AWS Glue 를 사용하여 Iceberg로 작업하는 경우를 잠금 관리자 AWS Glue Data Catalog 로 사용하도록 Spark 세션 구성을 구성해야 합니다. 자세한 내용은 Iceberg 설명서의 낙관적 잠금
을 참조하세요. -
Zstandard(ZSTD) 압축을 사용합니다.
Iceberg의 기본 압축 코덱은 gzip이며, 테이블 속성를 사용하여 수정할 수 있습니다
write.<file_type>.compression-codec
. Athena는 이미 Iceberg 테이블의 기본 압축 코덱으로 ZSTD를 사용합니다.일반적으로 ZSTD 압축 코덱을 사용하는 것이 좋습니다. GZIP과 Snappy 간의 균형을 맞추고 압축 비율을 손상시키지 않으면서 우수한 읽기/쓰기 성능을 제공하기 때문입니다. 또한 필요에 맞게 압축 수준을 조정할 수 있습니다. 자세한 내용은 Athena 설명서의 Athena의 ZSTD 압축 수준을 참조하세요.
Snappy는 최상의 전체 읽기 및 쓰기 성능을 제공할 수 있지만 GZIP 및 ZSTD보다 압축률이 낮습니다. Amazon S3에 더 큰 데이터 볼륨을 저장하더라도 성능에 우선순위를 두면 Snappy가 최적의 선택일 수 있습니다.