세분화된 액세스 제어를 갖춘 Apache Iceberg - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

세분화된 액세스 제어를 갖춘 Apache Iceberg

Amazon EMR 릴리스 6.15.0 이상에는 Spark SQL AWS Lake Formation 을 사용하여 데이터를 읽고 쓸 때 Apache Iceberg를 사용하여를 기반으로 하는 세분화된 액세스 제어에 대한 지원이 포함되어 있습니다. Amazon EMR은 Apache Iceberg와의 테이블, 행, 열 및 셀 수준 액세스 제어를 지원합니다. 이 기능을 사용하면 copy-on-write 테이블에서 스냅샷 쿼리를 실행하여 지정된 커밋 또는 압축 인스턴스에서 테이블의 최신 스냅샷을 쿼리할 수 있습니다.

Iceberg 형식을 사용하려면 다음 구성을 설정하세요. Iceberg 테이블이 있는 Amazon S3 경로DB_LOCATION로를 바꾸고 리전 및 계정 ID 자리 표시자를 고유한 값으로 바꿉니다.

spark-sql \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog --conf spark.sql.catalog.spark_catalog.warehouse=s3://DB_LOCATION --conf spark.sql.catalog.spark_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.spark_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.catalog.spark_catalog.glue.account-id=ACCOUNT_ID --conf spark.sql.catalog.spark_catalog.glue.id=ACCOUNT_ID --conf spark.sql.catalog.spark_catalog.client.region=AWS_REGION

이전 EMR 버전에서 Iceberg 형식을 사용하려면 대신 다음 명령을 사용합니다.

spark-sql \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions,com.amazonaws.emr.recordserver.connector.spark.sql.RecordServerSQLExtension --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.spark_catalog.warehouse=s3://DB_LOCATION --conf spark.sql.catalog.spark_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.spark_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.catalog.spark_catalog.glue.account-id=ACCOUNT_ID --conf spark.sql.catalog.spark_catalog.glue.id=ACCOUNT_ID --conf spark.sql.catalog.spark_catalog.client.assume-role.region=AWS_REGION --conf spark.sql.catalog.spark_catalog.lf.managed=true

다음 지원 매트릭스에는 Lake Formation을 포함하는 Apache Iceberg 몇 가지 핵심 기능이 나열되어 있습니다.

쓸 때 복사 읽을 때 병합

스냅샷 쿼리 - Spark SQL

최적화된 쿼리 읽기 - Spark SQL

증분 쿼리

시간 이동 쿼리

메타데이터 테이블

DML INSERT 명령

DDL 명령

Spark 데이터 소스 쿼리

Spark 데이터 소스 쓰기