

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 搭配使用 Delta Lake 與 Amazon EMR on EKS
<a name="tutorial-delta-lake"></a>

Delta Lake 是用於建置 Lakehouse 架構的開放原始碼儲存架構。以下說明如何將其設定為使用。

**搭配使用 [Delta Lake](https://delta.io/) 與 Amazon EMR on EKS 應用程式**

1. 當您啟動作業執行以提交應用程式組態中的 Spark 作業時，請包含 Delta Lake JAR 檔案：

   ```
   --job-driver '{"sparkSubmitJobDriver" : {
         "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
   ```
**注意**  
Amazon EMR 7.0.0 版和更新版本使用 Delta Lake 3.0，將其重新命名`delta-core.jar`為 `delta-spark.jar`。如果您使用 Amazon EMR 7.0.0 版或更新版本，請務必使用正確的檔案名稱，例如下列範例：  

   ```
   --jars local:///usr/share/aws/delta/lib/delta-spark.jar
   ```

1. 包含 Delta Lake 其他組態，並使用 AWS Glue Data Catalog 做為中繼存放區。

   ```
   --configuration-overrides '{
           "applicationConfiguration": [
           {
             "classification" : "spark-defaults", 
             "properties" : {
               "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", 
               "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog",
   "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" 
              }
           }]}'
   ```