

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon EMR on EKS에서 Delta Lake 사용
<a name="tutorial-delta-lake"></a>

Delta Lake는 Lakehouse 아키텍처를 빌드하기 위한 오픈 소스 스토리지 프레임워크입니다. 다음 예제에서는 사용하도록 설정하는 방법을 보여줍니다.

**Amazon EMR on EKS 애플리케이션에서 [Delta Lake](https://delta.io/)를 사용하는 방법**

1. 애플리케이션 구성에서 Spark 작업을 제출하기 위해 작업 실행을 시작하는 경우 Delta Lake JAR 파일을 포함합니다.

   ```
   --job-driver '{"sparkSubmitJobDriver" : {
         "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
   ```
**참고**  
Amazon EMR 릴리스 7.0.0 이상은 Delta Lake 3.0(`delta-core.jar` 이름이 `delta-spark.jar`로 바뀜)을 사용합니다. Amazon EMR 릴리스 7.0.0 이상을 사용하는 경우 다음 예제와 같이 올바른 파일 이름을 사용해야 합니다.  

   ```
   --jars local:///usr/share/aws/delta/lib/delta-spark.jar
   ```

1. Delta Lake 추가 구성을 포함하고 AWS Glue 데이터 카탈로그를 메타스토어로 사용합니다.

   ```
   --configuration-overrides '{
           "applicationConfiguration": [
           {
             "classification" : "spark-defaults", 
             "properties" : {
               "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", 
               "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog",
   "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" 
              }
           }]}'
   ```