Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menggunakan Delta Lake dengan Amazon EMR di EKS
Delta Lake adalah kerangka penyimpanan sumber terbuka untuk membangun arsitektur Lakehouse. Berikut ini menunjukkan cara mengaturnya untuk digunakan.
Untuk menggunakan Delta Lake dengan Amazon EMR pada aplikasi EKS
-
Saat Anda memulai pekerjaan untuk mengirimkan pekerjaan Spark dalam konfigurasi aplikasi, sertakan file JAR Delta Lake:
--job-driver '{"sparkSubmitJobDriver" : { "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
catatan
Amazon EMR merilis 7.0.0 dan yang lebih tinggi menggunakan Delta Lake 3.0, yang berganti nama menjadi.
delta-core.jar
delta-spark.jar
Jika Anda menggunakan Amazon EMR rilis 7.0.0 atau lebih tinggi, pastikan untuk menggunakan nama file yang benar, seperti dalam contoh berikut:--jars local:///usr/share/aws/delta/lib/delta-spark.jar
-
Sertakan konfigurasi tambahan Delta Lake dan gunakan AWS Glue Data Catalog sebagai metastore Anda.
--configuration-overrides '{ "applicationConfiguration": [ { "classification" : "spark-defaults", "properties" : { "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog", "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" } }]}'