Utilizzo di Delta Lake con Amazon EMR su EKS

Delta Lake è un framework di storage open source per la creazione di un'architettura Lakehouse. Di seguito viene illustrato come configurarlo per l'uso.

Utilizzo di Delta Lake con Amazon EMR su applicazioni EKS

Quando avvii un'esecuzione di processo per inviare un processo Spark nella configurazione dell'applicazione, includi i file JAR di Delta Lake:
```
--job-driver '{"sparkSubmitJobDriver" : {
      "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
```
Nota
Le versioni 7.0.0 e successive di Amazon EMR utilizzano Delta Lake 3.0, che viene rinominato in. delta-core.jar delta-spark.jar Se utilizzi Amazon EMR versione 7.0.0 o successive, assicurati di utilizzare il nome file corretto, come nell'esempio seguente:
```
--jars local:///usr/share/aws/delta/lib/delta-spark.jar
```

Includi la configurazione aggiuntiva di Delta Lake e usa AWS Glue Data Catalog come metastore.


--configuration-overrides '{
        "applicationConfiguration": [
        {
          "classification" : "spark-defaults", 
          "properties" : {
            "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", 
            "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog",
"spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" 
           }
        }]}'

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Esercitazioni

Utilizzo di Iceberg

Utilizzo di Delta Lake con Amazon EMR su EKS

Utilizzo di Delta Lake con Amazon EMR su applicazioni EKS

Nota