Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Cos'è AWS Glue?
AWS Glue è un servizio di integrazione dati serverless che semplifica agli utenti analitici il rilevamento, la preparazione, lo spostamento e l'integrazione di dati da più origini. Puoi usarlo per analisi, machine learning e sviluppo di applicazioni. Include anche strumenti aggiuntivi di produttività e gestione dei dati per la creazione, l'esecuzione di processi e l'implementazione di flussi di lavoro aziendali.
Con AWS Glue puoi rilevare e collegarti a oltre 70 diverse origini di dati e gestire i tuoi dati in un catalogo dati centralizzato. Puoi creare, eseguire e monitorare visivamente pipeline di estrazione, trasformazione e caricamento (ETL) per caricare dati nei data lake. Inoltre, puoi eseguire ricerche e query immediatamente nei dati catalogati utilizzando Amazon Athena, Amazon EMR e Amazon Redshift Spectrum.
AWS Glue consolida le principali funzionalità di integrazione dei dati in un singolo servizio. Tali funzionalità includono rilevamento dati, ETL moderno, pulizia, trasformazione e catalogazione a livello centralizzato. È anche serverless, per cui non esiste alcuna infrastruttura da gestire. Con un supporto flessibile per tutti i carichi di lavoro come ETL, ELT e streaming in un unico servizio, AWS Glue supporta gli utenti tra vari carichi di lavoro e tipi di utenti.
AWS Glue, inoltre, semplifica l'integrazione dei dati nell'architettura. Si integra con servizi di analisi AWS e data lake di Amazon S3. AWS Glue include interfacce di integrazione e strumenti di creazione di processi facili da usare per tutti gli utenti, dagli sviluppatori agli utenti aziendali, con soluzioni personalizzate per varie serie di competenze tecniche.
Grazie alla scalabilità on demand, AWS Glue è utile per concentrarsi su attività di elevato valore che massimizzano il valore dei dati. È scalabile per qualunque dimensione di dati e supporta tutti i tipi di dati e varianti di schemi. Per incrementare l'agilità e ottimizzare i costi, AWS Glue fornisce alta disponibilità integrata e fatturazione in base al consumo.
Per informazioni sui prezzi, consulta Prezzi di AWS Glue
AWS Glue Studio
AWS Glue Studio è un'interfaccia grafica che facilita la creazione, l'esecuzione e il monitoraggio di processi di integrazione dati in AWS Glue. Puoi comporre visivamente flussi di lavoro di trasformazione dei dati ed eseguirli con facilità sul motore ETL serverless basato su Apache Spark di AWS Glue.
Con AWS Glue Studio, puoi creare e gestire processi di raccolta, trasformazione e pulizia di dati. Puoi utilizzare AWS Glue Studio anche per risolvere problemi e modificare script di processi.
Argomenti
Caratteristiche di AWS Glue
Le funzioni di AWS Glue si dividono in tre categorie principali:
-
Rilevamento e organizzazione dei dati
-
Trasformazione, preparazione e pulizia dei dati per l'analisi
-
Creazione e monitoraggio di pipeline di dati
Rilevamento e organizzazione dei dati
-
Unificazione e ricerca tra più archivi di dati: archiviazione, indicizzazione e ricerca in più sink e origini dati catalogando tutti i dati in AWS.
-
Rilevamento automatico dei dati: utilizzo dei crawler AWS Glue per la deduzione automatica delle informazioni degli schemi e l'integrazione di tali informazioni in AWS Glue Data Catalog.
-
Gestione di schemi e autorizzazioni: convalida e controllo dell'accesso a database e tabelle.
-
Connessione a un'ampia varietà di origini di dati: sfruttamento di più origini di dati, sia on-premises che in AWS, utilizzando connessioni AWS Glue per la creazione di un data lake.
Trasformazione, preparazione e pulizia dei dati per l'analisi
-
Trasformazione visuale dei dati con un'interfaccia di canvas del processo: definizione di un processo ETL nell'editor dei processi visivi e generazione automatica del codice per l'estrazione, la trasformazione e il caricamento dei dati.
-
Creazione di complesse pipeline ETL con una semplice pianificazione del processo: richiamo di processi AWS Glue in base a un programma, on demand o in base a un evento.
-
Pulizia e trasformazione dei dati in streaming in transito: possibilità di consumo dati continuo e pulizia e trasformazione dei dati in transito. In tal modo, i dati sono disponibili per l'analisi in pochi secondi nell'archivio dei dati di destinazione.
-
Deduplicazione e pulizia dei dati con machine learning integrato: pulizia e preparazione dei dati per l'analisi senza diventare esperti di machine learning, utilizzando la funzione
FindMatches. Questa funzione deduplica e trova registri non perfettamente corrispondenti tra loro. -
Notebook di processo integrati: i notebook di processo AWS Glue forniscono notebook serverless con una configurazione minima in AWS Glue, per poter cominciare rapidamente.
-
Modifica, debug e verifica del codice ETL: con le sessioni interattive di AWS Glue, puoi esplorare e preparare i dati in modo interattivo. Puoi esplorare, sperimentare ed elaborare i dati in modo interattivo utilizzando l'IDE o il notebook di tua scelta.
-
Definizione, rilevamento e correzione di dati sensibili: il rilevamento dei dati sensibili di AWS Glue consente di definire, identificare ed elaborare dati sensibili nella pipeline di dati e nel data lake.
Creazione e monitoraggio di pipeline di dati
-
Scalabilità automatica in base al carico di lavoro: aumento o riduzione delle risorse in modo dinamico in base al carico di lavoro. In tal modo, i processi vengono assegnati agli operatori solo quando necessario.
-
Automatizzazione di processi con trigger basati su eventi: avvio di crawler o processi AWS Glue con trigger basati su eventi e progettazione di una catena di percorsi e crawler dipendenti.
-
Esegui e monitora i processi: esegui i processi AWS Glue con il motore che preferisci, Spark o Ray. Monitorali con strumenti di monitoraggio automatizzati, approfondimenti sull'esecuzione dei processi AWS Glue e AWS CloudTrail. Migliora il monitoraggio dei processi supportati da Spark con l'interfaccia utente di Apache Spark.
-
Definizione di flussi di lavoro per attività ETL e di integrazione: definizione di flussi di lavoro per ETL e attività di integrazione per più crawler, processi e trigger.
Ulteriori informazioni sulle innovazioni in AWS Glue
Scopri le ultime innovazioni in AWS Glue e in che modo i clienti utilizzano AWS Glue per consentire la preparazione dei dati in modalità self-service in tutta l'organizzazione.
Scopri come i clienti dimensionano AWS Glue oltre la configurazione tradizionale e come configurano AWS Glue per il monitoraggio dei processi e delle prestazioni.
Nozioni di base su AWS Glue
Ti consigliamo di iniziare con le sezioni seguenti:
Accesso a AWS Glue
Puoi creare, visualizzare e gestire i processi AWS Glue utilizzando una qualunque delle interfacce seguenti:
-
Console AWS Glue: fornisce un'interfaccia web per la creazione, la visualizzazione e la gestione di processi AWS Glue. Per accedere alla console, consulta AWS Glue
. -
AWS Glue Studio: fornisce un'interfaccia grafica per la creazione e la modifica dei processi AWS Glue in modo visivo. Per ulteriori informazioni, consulta Creazione di processi ETL visivi.
-
Sezione AWS Glue della AWS CLIDocumentazione di riferimento: fornisce comandi AWS CLI che puoi usare con AWS Glue. Per ulteriori informazioni, consulta la AWS CLIDocumentazione di riferimento per AWS Glue.
-
AWS GlueAPI: fornisce una documentazione di riferimento dell'API completa per gli sviluppatori. Per ulteriori informazioni, consulta API AWS Glue.
Servizi correlati
Gli utenti di AWS Glue utilizzano anche:
-
AWS Lake Formation : un servizio costituito da un livello di autorizzazione che fornisce un controllo granulare fine dell'accesso alle risorse in AWS Glue Data Catalog.
-
AWS Glue DataBrew : uno strumento visivo di preparazione dei dati che è possibile utilizzare per la pulizia e la normalizzazione dei dati senza scrivere codice.