Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS Glue componenti
AWS Glue fornisce una console e operazioni API per configurare e gestire il carico di lavoro di estrazione, trasformazione e caricamento (ETL). Puoi usare le operazioni API tramite vari SDK specifici dei linguaggi e nell'AWS Command Line Interface (AWS CLI). Per informazioni sull'utilizzo di AWS CLI, consulta Riferimento ai comandi AWS CLI.
AWS Glue usa il AWS Glue Data Catalog per archiviare i metadati su origini dati, trasformazioni e destinazioni. Il catalogo dati sostituisce il metastore Apache Hive. Il AWS Glue Jobs system fornisce un'infrastruttura gestita per la definizione, la pianificazione e l'esecuzione di operazioni ETL sui dati. Per ulteriori informazioni sull'API AWS Glue, consulta API AWS Glue.
Console AWS Glue
Puoi usare la console AWS Glue per definire e orchestrare il flusso di lavoro ETL. La console chiama diverse operazioni API nel AWS Glue Data Catalog e nel AWS Glue Jobs system per eseguire le attività seguenti:
-
Definire gli oggetti AWS Glue, come processi, tabelle, crawler e connessioni.
-
Pianificare l'esecuzione dei crawler.
-
Definire eventi o programmi per i trigger di processo.
-
Cercare e filtrare elenchi di oggetti AWS Glue.
-
Modificare gli script di trasformazione.
AWS Glue Data Catalog
La AWS Glue Data Catalog è il tuo archivio di metadati tecnico persistente in AWS Cloud.
Ogni account AWS dispone di un AWS Glue Data Catalog per regione AWS. Ogni catalogo dati è una raccolta altamente scalabile di tabelle organizzate in database. Una tabella è rappresentazione dei metadati di una raccolta di dati strutturati o semi-strutturati archiviati in origini come Amazon RDS, Apache Hadoop Distributed File System, Amazon OpenSearch Service e altre. La AWS Glue Data Catalog fornisce un repository uniforme in cui sistemi diversi possono archiviare e trovare metadati per tenere traccia dei dati in silo di dati. È quindi possibile utilizzare i metadati per eseguire query e trasformare i dati in modo coerente su un'ampia varietà di applicazioni.
Utilizzi il catalogo dati insieme alle policy AWS Identity and Access Management e Lake Formation per controllare l'accesso alle tabelle e ai database. In questo modo, consenti a diversi gruppi nella tua azienda di pubblicare in modo sicuro i dati per la più ampia organizzazione proteggendo allo stesso tempo le informazioni sensibili in modo altamente granulare.
Il catalogo dati, insieme a CloudTrail e Lake Formation, fornisce inoltre funzionalità di verifica e governance complete, con rilevamento delle modifiche dello schema e controlli dell'accesso ai dati. Questo contribuisce a garantire che i dati non vengono modificati impropriamente o condivisi inavvertitamente.
Per informazioni su come proteggere e controllare ila AWS Glue Data Catalog, consulta:
-
AWS Lake Formation – Per ulteriori informazioni, consulta Cos'è AWS Lake Formation? nella Guida per gli sviluppatori di AWS Lake Formation.
-
CloudTrail – Per ulteriori informazioni, consulta Che cos'è CloudTrail? nella Guida per l'utente di AWS CloudTrail.
Di seguito sono riportati altri servizi AWS e progetti open source che utilizzano AWS Glue Data Catalog:
-
Amazon Athena – Per ulteriori informazioni, consulta Comprensione di tabelle, database e catalogo dati nella Guida per l'utente di Amazon Athena.
-
Amazon Redshift Spectrum – Per ulteriori informazioni, consulta Utilizzo di Amazon Redshift Spectrum per eseguire query su dati esterni nella Guida per gli sviluppatori di Amazon Redshift.
-
Amazon EMR – Per ulteriori informazioni, consulta Utilizzo di policy basate su risorse per l'accesso Amazon EMR ad AWS Glue Data Catalog nella Guida alla gestione di Amazon EMR.
-
Client di AWS Glue Data Catalog per Apache Hive Metastore – Per ulteriori informazioni su questo progetto GitHub, consulta l'argomento relativo al client di AWS Glue Data Catalog per Metastore Apache Hive
.
Crawler e classificatori di AWS Glue
AWS Glue permette inoltre di configurare i crawler che possono effettuare la scansione dei dati in tutti i tipi di repository, classificarli, estrarne informazioni sullo schema e archiviare i metadati automaticamente nel AWS Glue Data Catalog. AWS Glue Data Catalog può essere utilizzato per guidare le operazioni ETL.
Per informazioni su come configurare i crawler e i classificatori, consulta l'articolo Utilizzo dei crawler per compilare il Catalogo dati . Per informazioni su come programmare i crawler e i classificatori usando l'API AWS Glue, consulta API crawler e classificatori.
Operazioni ETL di AWS Glue
Usando i metadati nel catalogo dati, AWS Glue è in grado di generare automaticamente gli script Scala o PySpark (API Python per Apache Spark) con estensioni AWS Glue che puoi usare e modificare per eseguire diverse operazioni ETL. Ad esempio, puoi estrarre, pulire e trasformare dati grezzi, quindi memorizzare il risultato in un diverso archivio, dove può essere interrogato e analizzato. Tale script potrebbe convertire un file CSV in una struttura dati relazionale e salvarlo in Amazon Redshift.
Per ulteriori informazioni su come usare le funzionalità ETL di AWS Glue, consulta Script di programmazione Spark.
Streaming ETL in AWS Glue
AWS Glue consente di eseguire operazioni ETL sui dati di streaming utilizzando processi in esecuzione continua. AWS Glue Streaming ETL è basato sul motore Apache Spark Structured Streaming e può importare flussi da Amazon Kinesis Data Streams, Apache Kafka e Amazon Managed Streaming for Apache Kafka (Amazon MSK). Streaming ETL può pulire e trasformare i dati di streaming e caricarli in Amazon S3 o in archivi dati JDBC. Usa Streaming ETL in AWS Glue per elaborare i dati degli eventi come flussi IoT, clickstream e registri di rete.
Se si conosce lo schema dell'origine dati di streaming, è possibile specificarlo in una tabella del catalogo dati. In caso contrario, è possibile abilitare il rilevamento dello schema nel processo ETL di streaming. Il processo determina automaticamente lo schema dai dati in entrata.
Il processo ETL può utilizzare le trasformazioni integrate di AWS Glue e le trasformazioni native di Apache Spark Structured Streaming. Per ulteriori informazioni, consulta Operazioni sullo streaming di DataFrames/DataSet
Per ulteriori informazioni, consulta Aggiunta di processi di streaming ETL in AWS Glue.
Il sistema di processi AWS Glue
Il AWS Glue Jobs system fornisce un'infrastruttura gestita per orchestrare il flusso di lavoro ETL. Puoi creare processi in AWS Glue che automatizzano gli script usati per estrarre, trasformare e trasferire dati in posizioni diverse. I processi possono essere programmati e concatenati oppure possono essere attivati da eventi quali l'arrivo di nuovi dati.
Per ulteriori informazioni sull'uso di AWS Glue Jobs system, consulta Monitoraggio di AWS Glue. Per informazioni sulla programmazione tramite l'API AWS Glue Jobs system, consulta API dei processi.
Componenti ETL visivi
AWS Glue consente di creare processi ETL attraverso un canvas visivo che è possibile manipolare.
Menu dei processi ETL
Le opzioni di menu nella parte superiore del canvas consentono di accedere alle varie visualizzazioni e ai dettagli di configurazione relativi al processo.
-
Visivo: il canvas dell'editor di processo visivo. Da qui è possibile aggiungere nodi per creare un processo.
-
Script: la rappresentazione dello script del tuo processo ETL. AWS Glue genera lo script in base alla rappresentazione visiva del processo. È inoltre possibile modificare lo script o scaricarlo.
Nota
Se scegli di modificare lo script, l'esperienza di creazione del processo viene convertita in modo permanente in modalità di solo script. Successivamente, non è più possibile utilizzare l'editor visivo per modificare il processo. È necessario aggiungere tutte le origini, le trasformazioni e le destinazioni del processo e apportare tutte le modifiche necessarie con l'editor visivo prima di scegliere di modificare lo script.
-
Dettagli del processo: la scheda Dettagli del processo consente di configurare il processo impostandone le proprietà. Sono disponibili proprietà di base, come nome e descrizione del processo, ruolo IAM, tipo di processo, versione di AWS Glue, lingua, tipo di worker, numero di worker, segnalibro del processo, esecuzione flessibile, numero di ritirati e timeout del processo, così come alcune proprietà avanzate, come connessioni, librerie, parametri di processo e tag.
-
Esecuzioni: dopo l'esecuzione del processo, è possibile accedere a questa scheda per visualizzare i processi eseguiti in passato.
-
Qualità dei dati: la qualità dei dati consente di valutare e monitorare la qualità delle risorse di dati. Puoi saperne di più su come utilizzare la qualità dei dati in questa scheda e aggiungere una trasformazione della qualità dei dati al tuo processo.
-
Pianificazioni: i processi che hai pianificato vengono visualizzati in questa scheda. Se non esistono pianificazioni collegate a questo processo, questa scheda non è accessibile.
-
Controllo della versione: puoi utilizzare Git con il tuo processo configurandolo in un repository Git.
Pannelli ETL visivi
Quando lavori nel canvas, sono disponibili diversi pannelli che ti aiutano a configurare i nodi o a visualizzare l'anteprima dei dati e visualizzare lo schema di output.
-
Proprietà: il pannello Proprietà viene visualizzato quando si sceglie un nodo nel canvas.
-
Anteprima dei dati: il pannello di anteprima dei dati fornisce un'anteprima dell'output dei dati in modo da poter prendere decisioni prima di eseguire il processo ed esaminare l'output.
-
Schema di output: la scheda Schema di output consente di visualizzare e modificare lo schema dei nodi di trasformazione.
Ridimensionamento dei pannelli
È possibile ridimensionare il pannello Proprietà sul lato destro dello schermo e il pannello inferiore che contiene le schede Anteprima dati e Schema di output facendo clic sul bordo del pannello e trascinandolo a sinistra e a destra o su e giù.
-
Pannello delle proprietà: ridimensiona il pannello delle proprietà facendo clic sul bordo del canvas sul lato destro dello schermo e trascinandolo verso sinistra per aumentarne la larghezza. Per impostazione predefinita, il pannello è compresso, mentre quando viene selezionato un nodo il pannello delle proprietà si apre alla dimensione predefinita.
-
Pannello Anteprima dei dati e Schema di output: ridimensiona il pannello inferiore facendo clic sul bordo inferiore del canvas nella parte inferiore dello schermo e trascinandolo verso l'alto per aumentarne l'altezza. Per impostazione predefinita, il pannello è compresso, mentre quando viene selezionato un nodo il pannello inferiore si apre alla dimensione predefinita.
Canvas del processo
È possibile aggiungere, rimuovere e spostare/riordinare i nodi direttamente sul canvas visivo ETL. Puoi immaginarlo come uno spazio di lavoro per creare un processo ETL completamente funzionale, a partire da un'origine dati fino alla destinazione dati.
Quando lavori con i nodi sul canvas, hai a disposizione una barra degli strumenti che può aiutarti a ingrandire e ridurre le dimensioni, rimuovere nodi, creare o modificare connessioni tra i nodi, cambiare l'orientamento del flusso di processo e annullare o ripetere un'operazione.
La barra degli strumenti mobile è ancorata al bordo in alto a destra del canvas e contiene diverse immagini che eseguono altrettante operazioni:
-
Icona del layout: la prima icona nella barra degli strumenti è l'icona del layout. Per impostazione predefinita, la direzione dei processi visivi è dall'alto verso il basso. Riorganizza la direzione del processo visivo disponendo i nodi orizzontalmente da sinistra a destra. Facendo nuovamente clic sull'icona del layout, la direzione torna dall'alto verso il basso.
-
Icona Ricentra: questa icona consente di modificare la visualizzazione del canvas centrandola. È possibile utilizzarla con processi di grandi dimensioni per tornare alla posizione centrale.
-
Icona Ingrandisci: questa icona consente di aumentare la dimensione dei nodi sul canvas.
-
Icona Riduci: questa icona consente di ridurre la dimensione dei nodi sul canvas.
-
Icona del cestino: l'icona del cestino rimuove un nodo dal processo visivo. Prima è necessario selezionare un nodo.
-
Icona Annulla: questa icona consente di annullare l'ultima operazione eseguita sul processo visivo.
-
Icona Ripeti: questa icona consente di ripetere l'ultima operazione eseguita sul processo visivo.
Utilizzo della minimappa
Pannello delle risorse
Il pannello delle risorse contiene tutte le origini dati, le operazioni di trasformazione e le connessioni disponibili. Apri il pannello delle risorse sul canvas facendo clic sull'icona "+". Si aprirà il pannello delle risorse.
Per chiudere il pannello delle risorse, fai clic sulla X nell'angolo in alto a destra del pannello delle risorse. In questo modo il pannello rimarrà nascosto fino a quando non lo riaprirai.
Trasformazioni e dati comuni
Nella parte superiore del pannello è presente una raccolta di Trasformazioni e dati comuni. Questi nodi vengono comunemente utilizzati in AWS Glue. Scegline uno per aggiungerlo al canvas. Puoi anche nascondere Trasformazioni e dati comuni facendo clic sul triangolo accanto all'intestazione Trasformazioni e dati comuni.
Nella sezione Trasformazioni e dati comuni, puoi cercare trasformazioni e nodi di origini dati. I risultati vengono visualizzati durante la digitazione. Più lettere aggiungi alla tua query di ricerca, più l'elenco dei risultati si ridurrà. I risultati della ricerca vengono compilati in base al nome e/o alla descrizione del nodo. Scegli il nodo per aggiungerlo al canvas.
Trasformazioni e dati
Esistono due schede che organizzano i nodi in Trasformazioni e Dati.
Trasformazioni: quando si sceglie la scheda Trasformazioni, è possibile selezionare tutte le trasformazioni disponibili. Scegli una trasformazione per aggiungerla al canvas. Puoi anche scegliere Aggiungi trasformazione nella parte inferiore dell'elenco Trasformazioni; questa operazione aprirà una nuova pagina alla documentazione per la creazione di Trasformazioni visive personalizzate. Seguendo i passaggi potrai creare trasformazioni personalizzate. Le trasformazioni verranno quindi visualizzate nell'elenco delle trasformazioni disponibili.
Dati: la scheda dati contiene tutti i nodi per Origini e Destinazioni. È possibile nascondere le origini e le destinazioni facendo clic sul triangolo accanto all'intestazione Origini o Destinazioni. È possibile visualizzare le origini e le destinazioni facendo nuovamente clic sul triangolo. Scegli un nodo di origine o di destinazione per aggiungerlo al canvas. È inoltre possibile scegliere Gestisci connessioni per aggiungere una nuova connessione. Si aprirà la pagina Connettori nella console.