Versiones 6.9.0 y posteriores de Amazon EMR Versiones 6.8.0 y posteriores de Amazon EMR

Uso de OSS de Delta Lake con EMR sin servidor

Versiones 6.9.0 y posteriores de Amazon EMR

nota

Las versiones 7.0.0 y posteriores de Amazon EMR utilizan Delta Lake 3.0.0, que cambia el nombre del archivo delta-core.jar a delta-spark.jar. Si utiliza Amazon EMR 7.0.0 o posterior, asegúrese de especificar delta-spark.jar en la configuración.

Las versiones Amazon EMR 6.9.0 y versiones posteriores incluyen Delta Lake, por lo que ya no tiene que empaquetar Delta Lake usted mismo ni proporcionar la marca --packages con sus trabajos de EMR sin servidor.

Cuando envíe trabajos EMR sin servidor, asegúrese de tener las siguientes propiedades de configuración e incluir los siguientes parámetros en el campo sparkSubmitParameters.


--conf spark.jars=/usr/share/aws/delta/lib/delta-core.jar,/usr/share/aws/delta/lib/delta-storage.jar
    --conf spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension
    --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog

Cree un delta_sample.py local para probar la creación y lectura de una tabla Delta.


# delta_sample.py
    from pyspark.sql import SparkSession
    
    import uuid
    
    url = "s3://amzn-s3-demo-bucket/delta-lake/output/%s/" % str(uuid.uuid4())
    spark = SparkSession.builder.appName("DeltaSample").getOrCreate()
    
    ## creates a Delta table and outputs to target S3 bucket
    spark.range(5).write.format("delta").save(url)
    
    ## reads a Delta table and outputs to target S3 bucket
    spark.read.format("delta").load(url).show

Cargue el archivo delta_sample.py, suba el archivo AWS CLI a su bucket de Amazon S3. A continuación, utilice el comando start-job-run para enviar un trabajo a una aplicación EMR sin servidor existente.


aws s3 cp delta_sample.py s3://amzn-s3-demo-bucket/code/
    
    aws emr-serverless start-job-run \
        --application-id application-id \
        --execution-role-arn job-role-arn \
        --name emr-delta \
        --job-driver '{
            "sparkSubmit": {
                "entryPoint": "s3://amzn-s3-demo-bucket/code/delta_sample.py",
                "sparkSubmitParameters": "--conf spark.jars=/usr/share/aws/delta/lib/delta-core.jar,/usr/share/aws/delta/lib/delta-storage.jar --conf spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog"
            }
        }'

Para usar bibliotecas de Python con Delta Lake, agregue la biblioteca delta-core empaquetándola como una dependencia o usándola como una imagen personalizada.

Alternativamente, puede usar SparkContext.addPyFile para agregar las bibliotecas de Python desde el archivo JAR delta-core:


import glob
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
spark.sparkContext.addPyFile(glob.glob("/usr/share/aws/delta/lib/delta-core_*.jar")[0])

Versiones 6.8.0 y posteriores de Amazon EMR

Si utiliza Amazon EMR 6.8.0 o una versión anterior, siga estos pasos para usar Delta Lake OSS con sus aplicaciones EMR sin servidor.

Para crear una versión de código abierto de Delta Lake que sea compatible con la versión de Spark de su aplicación Amazon EMR sin servidor, navegue hasta Delta GitHub y siga las instrucciones.
Cargar las bibliotecas de Delta Lake en el bucket de Amazon S3 de su Cuenta de AWS.
Cuando envíe trabajos EMR sin servidor en la configuración de la aplicación, incluya los archivos JAR de Delta Lake que se encuentran ahora en el bucket.
```
--conf spark.jars=s3://amzn-s3-demo-bucket/jars/delta-core_2.12-1.1.0.jar
```

Para asegurarte de que puedes leer y escribir desde una tabla Delta, ejecuta un ejemplo de prueba con PySpark.


from pyspark import SparkConf, SparkContext
    from pyspark.sql import HiveContext, SparkSession
    
    import uuid
    
    conf = SparkConf()
    sc = SparkContext(conf=conf)
    sqlContext = HiveContext(sc)
    
    url = "s3://amzn-s3-demo-bucket/delta-lake/output/1.0.1/%s/" % str(uuid.uuid4())
    
    ## creates a Delta table and outputs to target S3 bucket
    session.range(5).write.format("delta").save(url)
    
    ## reads a Delta table and outputs to target S3 bucket
    session.read.format("delta").load(url).show

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Uso de diferentes versiones de Python

Envío de trabajos desde Airflow