Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Rilevamento e catalogazione dei dati in AWS Glue
AWS Glue Data Catalog è un repository centralizzato che archivia i metadati sui set di dati dell'organizzazione. Funge da indice per la posizione, lo schema e le metriche di runtime delle origini dati. I metadati vengono memorizzati come tabelle di metadati in cui ogni tabella rappresenta un singolo datastore.
È possibile popolare il Catalogo dati utilizzando un crawler, che analizza automaticamente le origini dati ed estrae i metadati. Un crawler può connettersi a origini dati interne (basate su AWS) ed esterne ad AWS.
Per ulteriori informazioni sulle origini dati supportate, consultare Origini dati supportate per il crawling.
È inoltre possibile creare manualmente tabelle nel Catalogo dati definendo la struttura della tabella, lo schema e la struttura di partizionamento in base ai requisiti specifici.
Per ulteriori informazioni sulla creazione manuale di una tabella di metadati, consultare Definizione manuale dei metadati.
È possibile utilizzare le informazioni presenti nel Catalogo dati per creare e monitorare i processi ETL. Il Catalogo dati si integra con altri servizi AWS di analisi, fornendo una visione unificata delle origini dati che semplifica la gestione e l'analisi.
-
Amazon Athena: archivia ed esegue le query sui metadati delle tabelle nel Catalogo dati per i dati di Amazon S3 tramite SQL.
-
AWS Lake Formation: definisce e gestisce centralmente policy di accesso ai dati dettagliate e verifica l'accesso ai dati.
-
Amazon EMR: accede alle origini dati definite nel Catalogo dati per l'elaborazione di big data.
-
Amazon SageMaker AI: crea, addestra e implementa modelli di machine learning in modo rapido e sicuro.
Caratteristiche principali del Catalogo dati
Di seguito sono riportati gli aspetti chiave del Catalogo dati.
- Repository di metadati
-
Catalogo dati funge da repository centrale di metadati e memorizza informazioni sulla posizione, lo schema e le proprietà delle origini dati. Questi metadati sono organizzati in database e tabelle, in modo simile a un tradizionale catalogo di database relazionali.
- Rivelabilità dei dati automatica
-
Crawler di AWS Glue è in grado di scoprire e catalogare automaticamente origini dati nuove o aggiornate, riducendo il sovraccarico della gestione manuale dei metadati e garantendo che il Catalogo dati rimanga aggiornato. Catalogando le origini dati, il Catalogo dati consente agli utenti e alle applicazioni di scoprire e comprendere più facilmente le risorse di dati disponibili all'interno dell'organizzazione, promuovendo il riutilizzo dei dati e la collaborazione.
Il Catalogo dati supporta un'ampia gamma di origini dati, tra cui Amazon S3, Amazon RDS, Amazon Redshift, Apache Hive e altre ancora. Può acquisire e archiviare automaticamente i metadati da queste fonti utilizzando Crawler di AWS Glue.
Per ulteriori informazioni, consultare Utilizzo dei crawler per compilare il Catalogo dati .
- Gestione dello schema
-
Catalogo dati acquisisce e gestisce automaticamente lo schema delle origini dati, inclusi l'inferenza dello schema, l'evoluzione e il controllo delle versioni. Puoi aggiornare lo schema e le partizioni nel Catalogo dati utilizzando processi ETL AWS Glue.
- Ottimizzazione tabelle
-
Per migliorare le prestazioni di lettura tramite servizi di analisi AWS come Amazon Athena e Amazon EMR e i processi ETL AWS Glue, il Catalogo dati offre la compattazione gestita (un processo che compatta piccoli oggetti Amazon S3 in oggetti più grandi) per le tabelle Iceberg. È possibile utilizzare la console AWS Glue, la console AWS Lake Formation, AWS CLI o l'API AWS per abilitare o disabilitare la compattazione per le singole tabelle Iceberg presenti nel Catalogo dati.
Per ulteriori informazioni, consulta Ottimizzazione delle tabelle Iceberg.
- Statistiche delle colonne
-
È possibile calcolare statistiche a livello di colonna per tabelle del Catalogo dati in formati di dati come Parquet, ORC, JSON, ION, CSV e XML senza configurare pipeline di dati aggiuntive. Le statistiche delle colonne consentono di comprendere i profili di dati ottenendo informazioni dettagliate sui valori all'interno di una colonna. Catalogo dati supporta la generazione di statistiche per valori di colonna come valore minimo, valore massimo, valori nulli totali, valori distinti totali, lunghezza media dei valori e occorrenze totali di valori reali.
Per ulteriori informazioni, consulta Ottimizzazione delle prestazioni delle query con le statistiche delle colonne.
- Data lineage
-
Catalogo dati registra le trasformazioni e le operazioni eseguite sui dati, fornendo informazioni sulla data lineage. Queste informazioni sono utili per il controllo, la conformità e la comprensione della provenienza dei dati.
- Integrazione con altri servizi AWS
-
Catalogo dati si integra perfettamente con altri servizi AWS, come AWS Lake Formation, Amazon Athena, Amazon Redshift Spectrum e Amazon EMR. Questa integrazione consente di eseguire query e analizzare i dati su vari datastore utilizzando un unico livello di metadati coerente.
- Sicurezza e controllo degli accessi
-
AWS Glue si integra con AWS Lake Formation per supportare un controllo granulare degli accessi alle risorse del Catalogo dati, permettendo così di gestire le autorizzazioni e l'accesso sicuro alle risorse di dati in base alle policy e ai requisiti dell'organizzazione. AWS Glue si integra con AWS Key Management Service (AWS KMS) per crittografare i metadati archiviati nel Catalogo dati.