Uso do Delta Lake com o Amazon EMR no EKS - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Uso do Delta Lake com o Amazon EMR no EKS

O Delta Lake é uma estrutura de armazenamento de código aberto para a criação de uma arquitetura do Lakehouse. O exemplo a seguir mostra como configurar para uso.

Para usar o Delta Lake com aplicações do Amazon EMR no EKS
  1. Ao iniciar uma execução de trabalho para enviar um trabalho do Spark na configuração da aplicação, inclua os arquivos JAR do Delta Lake:

    --job-driver '{"sparkSubmitJobDriver" : { "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
    nota

    As versões 7.0.0 e superiores do Amazon EMR usam o Delta Lake 3.0, que renomeia delta-core.jar para delta-spark.jar. Se você usa o Amazon EMR nas versões 7.0.0 ou superiores, certifique-se de usar o nome de arquivo correto, como no exemplo a seguir:

    --jars local:///usr/share/aws/delta/lib/delta-spark.jar
  2. Inclua a configuração adicional do Delta Lake e use o AWS Glue Data Catalog como seu metastore.

    --configuration-overrides '{ "applicationConfiguration": [ { "classification" : "spark-defaults", "properties" : { "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog", "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" } }]}'