Gestione del Catalogo dati - AWS Glue

Gestione del Catalogo dati

AWS Glue Data Catalog è un repository di metadati centrale che archivia i metadati strutturali e operativi per i set di dati Amazon S3. La gestione efficace del Catalogo dati è fondamentale per mantenere la qualità, le prestazioni, la sicurezza e la governance dei dati.

Comprendendo e applicando queste pratiche di gestione del Catalogo dati, puoi garantire che i metadati rimangano accurati, performanti, sicuri e ben governati man mano che il panorama dei dati si evolve.

Questa sezione tratta i seguenti aspetti della gestione del Catalogo dati:

  • Aggiornamento dello schema della tabella e delle partizioni   Man mano che i dati evolvono, potrebbe essere necessario aggiornare lo schema della tabella o la struttura delle partizioni definiti nel Catalogo dati. Per ulteriori informazioni su come effettuare questi aggiornamenti a livello di codice utilizzando l'ETL AWS Glue, vedere Aggiornamento dello schema e aggiunta di nuove partizioni nel catalogo dati usando processi ETL AWS Glue.

  • Gestione delle statistiche sulle colonne: le statistiche accurate sulle colonne aiutano a ottimizzare i piani di query e a migliorare le prestazioni. Per ulteriori informazioni su come generare, aggiornare e gestire le statistiche sulle colonne, vedereOttimizzazione delle prestazioni delle query con le statistiche delle colonne.

  • Crittografia del catalogo dati   Per proteggere i metadati sensibili, puoi crittografare il catalogo dati utilizzando AWS Key Management Service (AWS KMS). In questa sezione viene descritto come abilitare e gestire la crittografia per il catalogo dati.

  • Proteggere il Catalogo dati con AWS Lake Formation   Lake Formation offre un approccio completo alla sicurezza dei data lake e al controllo degli accessi. Puoi utilizzare Lake Formation per proteggere e gestire l'accesso al tuo Catalogo dati e ai dati sottostanti.