Scoperta e catalogazione dei dati in AWS Glue

AWS Glue Data Catalog Si tratta di un repository centralizzato che archivia i metadati relativi ai set di dati dell'organizzazione. Funge da indice per la posizione, lo schema e le metriche di runtime delle origini dati. I metadati vengono memorizzati come tabelle di metadati in cui ogni tabella rappresenta un singolo datastore.

È possibile popolare il Catalogo dati utilizzando un crawler, che analizza automaticamente le origini dati ed estrae i metadati. Un crawler può connettersi a origini dati interne (basate su AWS) ed esterne ad AWS.

Per ulteriori informazioni sulle origini dati supportate, consultare Origini dati supportate per il crawling.

È inoltre possibile creare manualmente tabelle nel Catalogo dati definendo la struttura della tabella, lo schema e la struttura di partizionamento in base ai requisiti specifici.

Per ulteriori informazioni sulla creazione manuale di una tabella di metadati, consultare Definizione manuale dei metadati.

È possibile utilizzare le informazioni presenti nel Catalogo dati per creare e monitorare i processi ETL. Il Data Catalog si integra con altri servizi di AWS analisi, fornendo una visione unificata delle fonti di dati che semplifica la gestione e l'analisi dei dati.

Amazon Athena: archivia ed esegue le query sui metadati delle tabelle nel Catalogo dati per i dati di Amazon S3 tramite SQL.
AWS Lake Formation — Definizione e gestione centralizzata di politiche di accesso ai dati dettagliate e verifica l'accesso ai dati.
Amazon EMR: accede alle origini dati definite nel Catalogo dati per l'elaborazione di big data.
Amazon SageMaker AI — Crea, addestra e implementa modelli di machine learning in modo rapido e sicuro.

Caratteristiche principali del Catalogo dati

Di seguito sono riportati gli aspetti chiave del Catalogo dati.

Repository di metadati

Catalogo dati funge da repository centrale di metadati e memorizza informazioni sulla posizione, lo schema e le proprietà delle origini dati. Questi metadati sono organizzati in database e tabelle, in modo simile a un tradizionale catalogo di database relazionali.

Rivelabilità dei dati automatica

Crawler di AWS Glueè in grado di scoprire e catalogare automaticamente origini dati nuove o aggiornate, riducendo il sovraccarico della gestione manuale dei metadati e garantendo che il Catalogo dati rimanga aggiornato. Catalogando le origini dati, il Catalogo dati consente agli utenti e alle applicazioni di scoprire e comprendere più facilmente le risorse di dati disponibili all'interno dell'organizzazione, promuovendo il riutilizzo dei dati e la collaborazione.

Il Catalogo dati supporta un'ampia gamma di origini dati, tra cui Amazon S3, Amazon RDS, Amazon Redshift, Apache Hive e altre ancora. Può dedurre e archiviare automaticamente i metadati da queste fonti utilizzando s. Crawler di AWS Glue

Per ulteriori informazioni, consultare Utilizzo dei crawler per compilare il Catalogo dati.

Gestione dello schema

Catalogo dati acquisisce e gestisce automaticamente lo schema delle origini dati, inclusi l'inferenza dello schema, l'evoluzione e il controllo delle versioni. È possibile aggiornare lo schema e le partizioni nel Data Catalog utilizzando AWS Glue i job ETL.

Ottimizzazione tabelle

Per migliorare le prestazioni di lettura da parte di servizi di AWS analisi come Amazon Athena e Amazon EMR e i processi AWS Glue ETL, il Data Catalog offre la compattazione gestita (un processo che compatta piccoli oggetti Amazon S3 in oggetti più grandi) per le tabelle Iceberg nel Data Catalog. Puoi utilizzare AWS Glue console AWS CLI, AWS Lake Formation console o AWS API per abilitare o disabilitare la compattazione per le singole tabelle Iceberg presenti nel Data Catalog.

Per ulteriori informazioni, consulta Ottimizzazione delle tabelle Iceberg.

Statistiche delle colonne

È possibile calcolare statistiche a livello di colonna per tabelle del Catalogo dati in formati di dati come Parquet, ORC, JSON, ION, CSV e XML senza configurare pipeline di dati aggiuntive. Le statistiche delle colonne consentono di comprendere i profili di dati ottenendo informazioni dettagliate sui valori all'interno di una colonna. Catalogo dati supporta la generazione di statistiche per valori di colonna come valore minimo, valore massimo, valori nulli totali, valori distinti totali, lunghezza media dei valori e occorrenze totali di valori reali.

Per ulteriori informazioni, consulta Ottimizzazione delle prestazioni delle query con le statistiche delle colonne.

Data lineage

Catalogo dati registra le trasformazioni e le operazioni eseguite sui dati, fornendo informazioni sulla data lineage. Queste informazioni sono utili per il controllo, la conformità e la comprensione della provenienza dei dati.

Integrazione con altri servizi AWS

Il Data Catalog si integra perfettamente con altri AWS servizi, come Amazon Athena AWS Lake Formation, Amazon Redshift Spectrum e Amazon EMR. Questa integrazione consente di eseguire query e analizzare i dati su vari datastore utilizzando un unico livello di metadati coerente.

Sicurezza e controllo degli accessi

AWS Glue si integra AWS Lake Formation per supportare un controllo granulare degli accessi alle risorse di Data Catalog, consentendoti di gestire le autorizzazioni e l'accesso sicuro alle tue risorse di dati in base alle politiche e ai requisiti dell'organizzazione. AWS Glue si integra con AWS Key Management Service (AWS KMS) per crittografare i metadati archiviati nel Data Catalog.

Contesto aziendale e ricerca semantica (anteprima)

Arricchisci le risorse di Data Catalog con termini di glossario, campi di metadati personalizzati e risorse di competenze per rendere i dati più reperibili. Utilizza l'API AWS Glue di ricerca per trovare le risorse in base al significato semantico oltre alla corrispondenza esatta delle parole chiave. Gli agenti di intelligenza artificiale possono utilizzare le risorse di competenze per recuperare il contesto del dominio, ad esempio modelli di query, regole di utilizzo e definizioni dei dati.

Per ulteriori informazioni, consulta Aggiungere un contesto aziendale.

Viste materializzate

Il Data Catalog supporta le viste materializzate di Apache Iceberg, che sono tabelle gestite che memorizzano i risultati precalcolati delle query SQL e si aggiornano automaticamente in base alle modifiche dei dati di origine sottostanti. Le viste materializzate semplificano le pipeline di trasformazione dei dati e accelerano le prestazioni delle query eliminando i calcoli ridondanti.

Puoi creare viste materializzate utilizzando Apache Spark SQL in AWS Glue versione 5.1 e successive, Amazon EMR versione 7.12.0 e successive e Amazon Athena. Il Data Catalog monitora automaticamente le tabelle di origine di Apache Iceberg e aggiorna le viste materializzate utilizzando un'infrastruttura di elaborazione gestita. I motori Spark di AWS Glue, Amazon EMR e Amazon Athena possono riscrivere automaticamente le query per utilizzare viste materializzate quando offrono prestazioni migliori.

Le viste materializzate vengono archiviate come tabelle Apache Iceberg in bucket Amazon S3 Tables o bucket Amazon S3 per uso generico all'interno del tuo account, rendendole accessibili da più motori di query. Il Data Catalog gestisce tutti gli aspetti del ciclo di vita delle viste materializzate, inclusa la pianificazione automatica degli aggiornamenti, gli aggiornamenti incrementali e la gestione dei metadati.

Per ulteriori informazioni, consulta Utilizzo delle viste materializzate con AWS Glue e Utilizzo delle viste materializzate con Amazon EMR.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Creazione di reti per lo sviluppo

Popolare il catalogo dati