Funzionalità di AWS Glue Scopri le innovazioni in AWS Glue Nozioni di base su AWS Glue Accesso a AWS Glue Servizi correlati

Che cos'è AWS Glue?

AWS Glue è un servizio di integrazione dati serverless che semplifica agli utenti analitici il rilevamento, la preparazione, lo spostamento e l'integrazione di dati da più origini. Puoi usarlo per analisi, machine learning e sviluppo di applicazioni. Include anche strumenti aggiuntivi di produttività e gestione dei dati per la creazione, l'esecuzione di processi e l'implementazione di flussi di lavoro aziendali.

Con AWS Glue puoi rilevare e collegarti a oltre 70 diverse origini di dati e gestire i tuoi dati in un catalogo dati centralizzato. Puoi creare, eseguire e monitorare visivamente pipeline di estrazione, trasformazione e caricamento (ETL) per caricare dati nei data lake. Inoltre, puoi eseguire ricerche e query immediatamente nei dati catalogati utilizzando Amazon Athena, Amazon EMR e Amazon Redshift Spectrum.

AWS Glue consolida le principali funzionalità di integrazione dei dati in un singolo servizio. Tali funzionalità includono rilevamento dati, ETL moderno, pulizia, trasformazione e catalogazione a livello centralizzato. È anche serverless, per cui non esiste alcuna infrastruttura da gestire. Con un supporto flessibile per tutti i carichi di lavoro come ETL, ELT e streaming in un unico servizio, AWS Glue supporta gli utenti tra vari carichi di lavoro e tipi di utenti.

AWS Glue, inoltre, semplifica l'integrazione dei dati nell'architettura. Si integra con i servizi AWS di analisi e i data lake Amazon S3. AWS Gluedispone di interfacce di integrazione e strumenti per la creazione di lavori facili da usare per tutti gli utenti, dagli sviluppatori agli utenti aziendali, con soluzioni su misura per diverse competenze tecniche.

Grazie alla scalabilità on demand, AWS Glue è utile per concentrarsi su attività di elevato valore che massimizzano il valore dei dati. È scalabile per qualunque dimensione di dati e supporta tutti i tipi di dati e varianti di schemi. Per aumentare l'agilità e ottimizzare i costi, AWS Glue offre disponibilità e fatturazione integrate elevate. pay-as-you-go

Per informazioni sui prezzi, consulta Prezzi di AWS Glue.

AWS Glue Studio

AWS Glue Studio è un'interfaccia grafica che facilita la creazione, l'esecuzione e il monitoraggio di processi di integrazione dati in AWS Glue. Puoi comporre visivamente flussi di lavoro di trasformazione dei dati ed eseguirli con facilità sul motore ETL serverless basato su Apache Spark di AWS Glue.

Con AWS Glue Studio, puoi creare e gestire processi di raccolta, trasformazione e pulizia di dati. Puoi utilizzare AWS Glue Studio anche per risolvere problemi e modificare script di processi.

Argomenti

Funzionalità di AWS Glue
Scopri le innovazioni in AWS Glue
Nozioni di base su AWS Glue
Accesso a AWS Glue
Servizi correlati
AWS Glue per la fine del supporto di Ray

Funzionalità di AWS Glue

Le funzioni di AWS Glue si dividono in tre categorie principali:

Rilevamento e organizzazione dei dati
Trasformazione, preparazione e pulizia dei dati per l'analisi
Creazione e monitoraggio di pipeline di dati

Rilevamento e organizzazione dei dati

Unifica e cerca in più archivi di dati: archivia, indicizza e cerca su più fonti di dati e sink catalogando tutti i tuoi dati. AWS
Rilevamento automatico dei dati: utilizzo dei crawler AWS Glue per la deduzione automatica delle informazioni degli schemi e l'integrazione di tali informazioni in AWS Glue Data Catalog.
Gestione di schemi e autorizzazioni: convalida e controllo dell'accesso a database e tabelle.
Connettiti a un'ampia varietà di fonti di dati: accedi a più fonti di dati, sia in locale che in locale AWS, utilizzando AWS Glue le connessioni per creare il tuo data lake.

Trasformazione, preparazione e pulizia dei dati per l'analisi

Trasformazione visuale dei dati con un'interfaccia di canvas del processo: definizione di un processo ETL nell'editor dei processi visivi e generazione automatica del codice per l'estrazione, la trasformazione e il caricamento dei dati.
Creazione di complesse pipeline ETL con una semplice pianificazione del processo: richiamo di processi AWS Glue in base a un programma, on demand o in base a un evento.
Pulizia e trasformazione dei dati in streaming in transito: possibilità di consumo dati continuo e pulizia e trasformazione dei dati in transito. In tal modo, i dati sono disponibili per l'analisi in pochi secondi nell'archivio dei dati di destinazione.
Deduplicazione e pulizia dei dati con machine learning integrato: pulizia e preparazione dei dati per l'analisi senza diventare esperti di machine learning, utilizzando la funzione FindMatches. Questa funzione deduplica e trova registri non perfettamente corrispondenti tra loro.
Notebook di processo integrati: i notebook di processo AWS Glue forniscono notebook serverless con una configurazione minima in AWS Glue, per poter cominciare rapidamente.
Modifica, debug e verifica del codice ETL: con le sessioni interattive di AWS Glue, puoi esplorare e preparare i dati in modo interattivo. Puoi esplorare, sperimentare ed elaborare i dati in modo interattivo utilizzando l'IDE o il notebook di tua scelta.
Definizione, rilevamento e correzione di dati sensibili: il rilevamento dei dati sensibili di AWS Glue consente di definire, identificare ed elaborare dati sensibili nella pipeline di dati e nel data lake.

Creazione e monitoraggio di pipeline di dati

Scalabilità automatica in base al carico di lavoro: aumento o riduzione delle risorse in modo dinamico in base al carico di lavoro. In tal modo, i processi vengono assegnati agli operatori solo quando necessario.
Automatizzazione di processi con trigger basati su eventi: avvio di crawler o processi AWS Glue con trigger basati su eventi e progettazione di una catena di percorsi e crawler dipendenti.
Esegui e monitora i processi: esegui i processi AWS Glue con il motore che preferisci, Spark o Ray. Monitorali con strumenti di monitoraggio automatizzati, approfondimenti sull'esecuzione dei processi AWS Glue e AWS CloudTrail. Migliora il monitoraggio dei processi supportati da Spark con l'interfaccia utente di Apache Spark.
Definizione di flussi di lavoro per attività ETL e di integrazione: definizione di flussi di lavoro per ETL e attività di integrazione per più crawler, processi e trigger.

Scopri le innovazioni in AWS Glue

Scopri le ultime innovazioni AWS Glue e scopri in che modo i clienti utilizzano AWS Glue per consentire la preparazione dei dati in modalità self-service in tutta l'organizzazione.

Scopri come i clienti AWS Glue vanno oltre la configurazione tradizionale e come si configurano AWS Glue per il monitoraggio del lavoro e delle prestazioni.

Nozioni di base su AWS Glue

Ti consigliamo di iniziare con le sezioni seguenti:

Accesso a AWS Glue

Puoi creare, visualizzare e gestire i processi AWS Glue utilizzando una qualunque delle interfacce seguenti:

Console AWS Glue: fornisce un'interfaccia web per la creazione, la visualizzazione e la gestione di processi AWS Glue. Per accedere alla console, consulta AWS Glue.
AWS Glue Studio: fornisce un'interfaccia grafica per la creazione e la modifica dei processi AWS Glue in modo visivo. Per ulteriori informazioni, consulta Creazione di processi ETL visivi.
AWS Gluesezione della Guida di AWS CLI riferimento: fornisce AWS CLI comandi utilizzabili conAWS Glue. Per ulteriori informazioni, consulta la AWS CLI Documentazione di riferimento per AWS Glue.
AWS GlueAPI: fornisce una documentazione di riferimento dell'API completa per gli sviluppatori. Per ulteriori informazioni, consulta API AWS Glue.

Gli utenti di AWS Glue utilizzano anche:

AWS Lake Formation : un servizio costituito da un livello di autorizzazione che fornisce un controllo granulare fine dell'accesso alle risorse in AWS Glue Data Catalog.
AWS Glue DataBrew : uno strumento visivo di preparazione dei dati che è possibile utilizzare per la pulizia e la normalizzazione dei dati senza scrivere codice.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

AWS Glue per la fine del supporto di Ray