기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
세분화된 액세스 제어를 갖춘 Apache Iceberg
Amazon EMR 릴리스 6.15.0 이상에는 Spark SQL AWS Lake Formation 을 사용하여 데이터를 읽고 쓸 때 Apache Iceberg를 사용하여를 기반으로 하는 세분화된 액세스 제어에 대한 지원이 포함되어 있습니다. Amazon EMR은 Apache Iceberg와의 테이블, 행, 열 및 셀 수준 액세스 제어를 지원합니다. 이 기능을 사용하면 copy-on-write 테이블에서 스냅샷 쿼리를 실행하여 지정된 커밋 또는 압축 인스턴스에서 테이블의 최신 스냅샷을 쿼리할 수 있습니다.
Iceberg 형식을 사용하려면 다음 구성을 설정하세요. Iceberg 테이블이 있는 Amazon S3 경로로를 바꾸고 리전 및 계정 ID 자리 표시자를 고유한 값으로 바꿉니다.DB_LOCATION
spark-sql \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog --conf spark.sql.catalog.spark_catalog.warehouse=s3://DB_LOCATION--conf spark.sql.catalog.spark_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.spark_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.catalog.spark_catalog.glue.account-id=ACCOUNT_ID--conf spark.sql.catalog.spark_catalog.glue.id=ACCOUNT_ID--conf spark.sql.catalog.spark_catalog.client.region=AWS_REGION
이전 EMR 버전에서 Iceberg 형식을 사용하려면 대신 다음 명령을 사용합니다.
spark-sql \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions,com.amazonaws.emr.recordserver.connector.spark.sql.RecordServerSQLExtension --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.spark_catalog.warehouse=s3://DB_LOCATION--conf spark.sql.catalog.spark_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.spark_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.catalog.spark_catalog.glue.account-id=ACCOUNT_ID--conf spark.sql.catalog.spark_catalog.glue.id=ACCOUNT_ID--conf spark.sql.catalog.spark_catalog.client.assume-role.region=AWS_REGION--conf spark.sql.catalog.spark_catalog.lf.managed=true
다음 지원 매트릭스에는 Lake Formation을 포함하는 Apache Iceberg 몇 가지 핵심 기능이 나열되어 있습니다.
| 쓸 때 복사 | 읽을 때 병합 | |
|---|---|---|
|
스냅샷 쿼리 - Spark SQL |
✓ |
✓ |
|
최적화된 쿼리 읽기 - Spark SQL |
✓ |
✓ |
|
증분 쿼리 |
✓ |
✓ |
|
시간 이동 쿼리 |
✓ |
✓ |
|
메타데이터 테이블 |
✓ |
✓ |
|
DML |
✓ |
✓ |
|
DDL 명령 |
||
|
Spark 데이터 소스 쿼리 |
||
|
Spark 데이터 소스 쓰기 |