Creazione di processi ETL visivi - AWS Glue

Creazione di processi ETL visivi

Creazione di processi ETL visivi con AWS Glue Studio

AWS Glue Studio fornisce un'interfaccia visiva per la creazione, l'esecuzione e il monitoraggio dei processi di estrazione, trasformazione e caricamento (ETL) in AWS Glue. Un processo in AWS Glue è costituito dalla logica di business che esegue le attività di estrazione, trasformazione e caricamento (ETL, Extract, Transform and Load). Con AWS Glue Studio, puoi comporre visivamente flussi di lavoro per la trasformazione dei dati ed eseguirli senza problemi sul motore ETL serverless basato su Apache Spark di AWS Glue. Puoi creare processi che spostano e trasformano i dati tra vari archivi di dati e flussi utilizzando un'interfaccia drag-and-drop senza dover imparare a usare Spark o scrivere codice.

Un processo AWS Glue incapsula uno script che si connette ai dati di origine, lo elabora e quindi lo scrive nella destinazione dati. Di solito un processo esegue script di estrazione, trasformazione e caricamento (ETL). I processi possono eseguire script progettati per ambienti di runtime Apache Spark e Ray. I processi possono anche eseguire script Python generici (processi shell di Python). I trigger AWS Glue possono avviare processi in base a una pianificazione, un evento oppure on demand. È possibile monitorare le esecuzioni dei processi per comprendere i parametri di runtime come esito positivo, durata e ora di inizio.

È possibile utilizzare gli script generati da AWS Glue oppure è possibile fornire i propri. Con uno schema di origine e una posizione o schema di destinazione, il generatore di codice AWS Glue Studio può creare automaticamente uno script API Apache Spark (PySpark). Puoi usare questo script come punto di partenza e modificarlo per soddisfare gli obiettivi.

AWS Glue può scrivere file di output in diversi formati di dati. Ogni tipo di processo può supportare diversi formati di output. Per alcuni formati di dati, possono essere scritti formati comuni di compressione.

Gestione dei processi AWS Glue nella Console AWS

Per visualizzare i processi esistenti, accedi alla AWS Management Console e apri la console AWS Glue su https://console.aws.amazon.com/glue/. Quindi scegli scheda Jobs (Processi) in AWS Glue. L'elenco Jobs (Processi) mostra l'ubicazione dello script associato a ciascun processo quando il processo è stato modificato e l'opzione di segnalibro del processo attuale.

Puoi creare processi nella sezione ETL della console AWS Glue. Durante la creazione di un nuovo processo o dopo averlo salvato, è possibile utilizzare AWS Glue Studio per modificare i processi ETL. Poi farlo modificando i nodi nell'editor visivo o modificando lo script del processo in modalità sviluppatore. È inoltre possibile aggiungere e rimuovere nodi nell'editor visivo per creare processi ETL più complicati.

Passaggi successivi per la creazione di un processo in AWS Glue Studio

Puoi utilizzare l'editor visivo dei processi per configurare i nodi per il processo. Ogni nodo rappresenta un'azione, ad esempio la lettura di dati dalla posizione di origine o l'applicazione di una trasformazione ai dati. Ogni nodo aggiunto al processo dispone di proprietà che forniscono informazioni sulla posizione dei dati o sulla trasformazione.

I passaggi successivi per la creazione e la gestione dei lavori sono:

Creazione di flussi ETL visivi con Amazon SageMaker

Con un flusso di lavoro di Amazon SageMaker Unified Studio, puoi configurare ed eseguire una serie di attività in Amazon SageMaker Unified Studio. I flussi di lavoro di Amazon SageMaker Unified Studio utilizzano Apache Airflow per modellare le procedure di elaborazione dei dati e orchestrare gli artefatti del codice di Amazon SageMaker Unified Studio. Per ulteriori informazioni, consulta Using workflows in Amazon SageMaker Unified Studio.