Definizione manuale dei metadati
Il catalogo dati AWS Glue è un repository centrale che archivia i metadati sui set di dati e le origini dati. Sebbene un crawler sia in grado di eseguire automaticamente il crawling e la compilazione dei metadati per le origini dati supportate, in alcuni scenari potrebbe essere necessario definire manualmente i metadati manualmente nel catalogo dati:
Formati di dati non supportati: se si dispone di origini dati non supportate dal crawler, occorre definire manualmente i metadati per tali origini dati nel catalogo dati.
Requisiti personalizzati per i metadati: Crawler di AWS Glue deduce i metadati in base a regole e convenzioni predefinite. Se si dispone di requisiti di metadati specifici che non sono coperti dai metadati Crawler di AWS Glue dedotti, è possibile definire manualmente i metadati per soddisfare le esigenze
Standardizzazione e governance dei dati: in alcuni casi, potrebbe essere necessario un maggiore controllo sulle definizioni dei metadati per motivi di governance, conformità o sicurezza dei dati. La definizione manuale dei metadati consente di garantire che i metadati rispettino gli standard e le politiche dell'organizzazione.
-
Segnaposto per una importazione dei dati futura: se si dispone di origini dati che non sono immediatamente disponibili o accessibili, è possibile creare tabelle di schema vuote come segnaposto. Una volta che le origini dati diventano disponibili, è possibile popolare le tabelle con i dati effettivi, mantenendo al contempo la struttura predefinita.
Per definire i metadati manualmente, è possibile utilizzare la console AWS Glue, la console Lake Formation, l'API AWS Glue o AWS Command Line Interface (AWS CLI). È possibile creare database, tabelle e partizioni, e specificare proprietà dei metadati come nomi di colonne, tipi di dati, descrizioni e altri attributi.