Menggunakan Delta Lake dengan Amazon EMR di EKS - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan Delta Lake dengan Amazon EMR di EKS

Delta Lake adalah kerangka penyimpanan sumber terbuka untuk membangun arsitektur Lakehouse. Berikut ini menunjukkan cara mengaturnya untuk digunakan.

Untuk menggunakan Delta Lake dengan Amazon EMR pada aplikasi EKS
  1. Saat Anda memulai pekerjaan untuk mengirimkan pekerjaan Spark dalam konfigurasi aplikasi, sertakan file JAR Delta Lake:

    --job-driver '{"sparkSubmitJobDriver" : { "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
    catatan

    Amazon EMR merilis 7.0.0 dan yang lebih tinggi menggunakan Delta Lake 3.0, yang berganti nama menjadi. delta-core.jar delta-spark.jar Jika Anda menggunakan Amazon EMR rilis 7.0.0 atau lebih tinggi, pastikan untuk menggunakan nama file yang benar, seperti dalam contoh berikut:

    --jars local:///usr/share/aws/delta/lib/delta-spark.jar
  2. Sertakan konfigurasi tambahan Delta Lake dan gunakan AWS Glue Data Catalog sebagai metastore Anda.

    --configuration-overrides '{ "applicationConfiguration": [ { "classification" : "spark-defaults", "properties" : { "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog", "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" } }]}'