Avvio di lavori ETL visivi in AWS Glue Studio - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Avvio di lavori ETL visivi in AWS Glue Studio

Puoi utilizzare la semplice interfaccia visiva di AWS Glue Studio per creare i processi ETL. Puoi la pagina Jobs (Processi) per creare nuovi processi. È inoltre possibile usare un editor di script o notebook per lavorare direttamente con il codice nello script del processo ETL di AWS Glue Studio.

Nella pagina Jobs (Processi) puoi visualizzare tutti i processi creati con AWS Glue Studio o AWS Glue. In questa pagina puoi visualizzare, gestire ed eseguire i processi.

Vedi anche il tutorial del blog per un altro esempio di come creare processi ETL con AWS Glue Studio.

Avvio di processi in AWS Glue Studio

AWS Glue consente di creare un processo tramite un'interfaccia visiva, un notebook di codice interattivo o un editor di script. È possibile avviare un processo facendo clic su una delle opzioni o creare un nuovo processo basato su un processo di esempio.

I processi di esempio creano processi con lo strumento che preferisci. Ad esempio, i processi di esempio consentono di creare un processo ETL visivo che esegue il join di file CSV in una tabella di catalogo, creare un processo in un notebook di codice interattivo con AWS Glue per Ray o AWS Glue per Spark quando si lavora con panda, oppure creare un processo in un notebook di codice interattivo con SparkSQL.

Creare un lavoro AWS Glue Studio partendo da zero

  1. Accedi a AWS Management Console e apri la AWS Glue Studio console all'indirizzo https://console.aws.amazon.com/gluestudio/.

  2. Nel riquadro di navigazione, seleziona Processi ETL.

  3. Nella sezione Crea processo, scegli un'opzione di configurazione per il processo.

    La schermata mostra la pagina Jobs (Processi) di AWS Glue Studio. Nella sezione "Crea processo" vengono visualizzate le opzioni di creazione del processo. Nella sezione "Processi di esempio", scegli un'opzione, quindi scegli Crea un processo di esempio per iniziare un processo di esempio.

    Opzioni per creare un processo da zero:

    • ETL visivo: crea il processo in un'interfaccia visiva incentrata sul flusso di dati

    • Crea processi utilizzando un notebook a codice interattivo: crea processi in modo interattivo in un'interfaccia notebook basata su notebook Jupyter

      Prima di selezionare questa opzione e creare una sessione di creazione di processi tramite notebook, è necessario fornire informazioni aggiuntive. Per ulteriori informazioni su come specificare queste informazioni, consulta Nozioni di base sui notebook in AWS Glue Studio.

    • Crea codice con un editor di script: se hai familiarità con la programmazione e la scrittura di script ETL, scegli questa opzione per creare un nuovo processo ETL di Spark. Scegli il motore: shell Python, Ray, Spark (Python) o Spark (Scala). Quindi, scegli Inizia da zero o Carica script per caricare uno script esistente da un file locale. Se scegli di utilizzare l'editor di script, per progettare o modificare il tuo processo, non potrai utilizzare l'editor visivo dei processi.

      Un processo Spark viene eseguito in un ambiente Apache Spark gestito da AWS Glue. Per impostazione predefinita, i nuovi script sono codificati in Python. Per scrivere un nuovo script Scala, consulta Creazione e modifica di script Scala in AWS Glue Studio.

Creazione di un lavoro a AWS Glue Studio partire da un lavoro di esempio

Puoi scegliere di creare un processo da un processo di esempio. Nella sezione Processi di esempio, scegli un processo di esempio, quindi scegli Crea processo di esempio. La creazione di un processo di esempio da una delle opzioni fornisce un modello rapido per iniziare a lavorare.

  1. Accedi a AWS Management Console e apri la AWS Glue Studio console all'indirizzo https://console.aws.amazon.com/gluestudio/.

  2. Nel riquadro di navigazione, seleziona Processi ETL.

  3. Seleziona un'opzione per creare un processo da un processo di esempio:

    • Processo ETL visivo per eseguire il join di più origini: leggi tre file CSV, combina i dati, modifica i tipi di dati, quindi scrivi i dati su Amazon S3 e catalogali per le query successive.

    • Notebook Spark con Pandas: esplora e visualizza i dati utilizzando il popolare framework Pandas combinato con Spark.

    • Notebook Spark con SQL: inizia rapidamente a utilizzare Apache Spark tramite SQL. Accedi ai dati tramite Catalogo dati AWS Glue e trasformali utilizzando comandi familiari.

  4. Scegli Crea un processo di esempio.