EMR Serverless에서 AWS Glue 다중 카탈로그 계층 구조 작업 - Amazon EMR

EMR Serverless에서 AWS Glue 다중 카탈로그 계층 구조 작업

AWS Glue 다중 카탈로그 계층 구조와 함께 작동하도록 EMR Serverless 애플리케이션을 구성할 수 있습니다. 다음 예제에서는 AWS Glue 다중 카탈로그 계층 구조에서 EMR-S Spark를 사용하는 방법을 보여줍니다.

다중 카탈로그 계층 구조에 대해 자세히 알아보려면 Amazon EMR에서 Spark를 사용하여 AWS Glue Data Catalog의 다중 카탈로그 계층 구조 작업을 참조하세요.

Iceberg 및 AWS Glue Data Catalog와 함께 Redshift Managed Storage(RMS) 사용

다음은 Iceberg와 AWS Glue Data Catalog의 통합을 위해 Spark를 구성하는 방법을 보여줍니다.

aws emr-serverless start-job-run \ --application-id application-id \ --execution-role-arn job-role-arn \ --job-driver '{ "sparkSubmit": { "entryPoint": "s3://amzn-s3-demo-bucket/myscript.py", "sparkSubmitParameters": "--conf spark.sql.catalog.nfgac_rms = org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.rms.type=glue --conf spark.sql.catalog.rms.glue.id=Glue RMS catalog ID --conf spark.sql.defaultCatalog=rms --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions" } }'

통합 후 카탈로그에 있는 테이블의 샘플 쿼리:

SELECT * FROM my_rms_schema.my_table

Iceberg REST API 및 AWS Glue Data Catalog와 함께 Redshift Managed Storage(RMS) 사용

다음은 Spark를 Iceberg REST 카탈로그와 함께 작동하도록 구성하는 방법을 보여줍니다.

aws emr-serverless start-job-run \ --application-id application-id \ --execution-role-arn job-role-arn \ --job-driver '{ "sparkSubmit": { "entryPoint": "s3://amzn-s3-demo-bucket/myscript.py", "sparkSubmitParameters": " --conf spark.sql.catalog.rms=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.rms.type=rest --conf spark.sql.catalog.rms.warehouse=Glue RMS catalog ID --conf spark.sql.catalog.rms.uri=Glue endpoint URI/iceberg --conf spark.sql.catalog.rms.rest.sigv4-enabled=true --conf spark.sql.catalog.rms.rest.signing-name=glue --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions" } }'

카탈로그에 있는 테이블의 샘플 쿼리:

SELECT * FROM my_rms_schema.my_table