Informazioni di riferimento sulle trasformazioni PySpark di AWS Glue

AWS Glue offre le trasformazioni predefinite seguenti che è possibile usare nelle operazioni ETL PySpark. I tuoi dati vengono trasformati in una struttura dati chiamata DynamicFrame, che è un'estensione di un DataFrame SQL Apache Spark. DynamicFrame contiene i tuoi dati e il suo schema di riferimento per elaborare i dati.

La maggior parte di queste trasformazioni esiste anche come metodi della classe DynamicFrame. Per ulteriori informazioni, consulta DynamicFrame transforms (Trasformazione DynamicFrame).

Trasformazioni di integrazione dei dati

Per AWS Glue 4.0 e versioni successive, creare o aggiornare gli argomenti del processo con key: --enable-glue-di-transforms, value: true.

Esempio di script di processo:


from pyspark.context import SparkContext
        
from awsgluedi.transforms import *
sc = SparkContext()

input_df = spark.createDataFrame(
    [(5,), (0,), (-1,), (2,), (None,)],
    ["source_column"],
)

try:
    df_output = math_functions.IsEven.apply(
        data_frame=input_df,
        spark_context=sc,
        source_column="source_column",
        target_column="target_column",
        value=None,
        true_string="Even",
        false_string="Not even",
    )
    df_output.show()   
except:
    print("Unexpected Error happened ")
    raise

Sessioni di esempio con notebook


%idle_timeout 2880
%glue_version 4.0
%worker_type G.1X
%number_of_workers 5
%region eu-west-1


%%configure
{
    "--enable-glue-di-transforms": "true"
}


from pyspark.context import SparkContext
from awsgluedi.transforms import *

sc = SparkContext()

input_df = spark.createDataFrame(
    [(5,), (0,), (-1,), (2,), (None,)],
    ["source_column"],
)

try:
    df_output = math_functions.IsEven.apply(
        data_frame=input_df,
        spark_context=sc,
        source_column="source_column",
        target_column="target_column",
        value=None,
        true_string="Even",
        false_string="Not even",
    )
    df_output.show()    
except:
    print("Unexpected Error happened ")
    raise

Sessioni di esempio con AWS CLI


aws glue create-session --default-arguments "--enable-glue-di-transforms=true"

Trasformazioni di integrazione dei dati:

Maven: creazione di bundle per il plug-in con le applicazioni Spark

È possibile raggruppare le dipendenze delle trasformazioni con le applicazioni Spark e le distribuzioni Spark (versione 3.3) aggiungendo la dipendenza del plug-in nel file Maven pom.xml mentre si sviluppano le applicazioni Spark in locale.


<repositories>
   ...
    <repository>
        <id>aws-glue-etl-artifacts</id>
        <url>https://aws-glue-etl-artifacts.s3.amazonaws.com/release/ </url>
    </repository>
</repositories>
...
<dependency>
    <groupId>com.amazonaws</groupId>
    <artifactId>AWSGlueTransforms</artifactId>
    <version>4.0.0</version>
</dependency>

In alternativa, è possibile scaricare i binari direttamente dagli artefatti di AWS Glue Maven e includerli nell'applicazione Spark come riportato di seguito.


#!/bin/bash
sudo wget -v https://aws-glue-etl-artifacts.s3.amazonaws.com/release/com/amazonaws/AWSGlueTransforms/4.0.0/AWSGlueTransforms-4.0.0.jar -P /usr/lib/spark/jars/

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

GlueContext

GlueTransform