Integrazione con altri servizi AWS - AWS Glue

Integrazione con altri servizi AWS

Sebbene sia possibile utilizzare Crawler di AWS Glue per compilare il AWS Glue Data Catalog, vi sono diversi servizi AWS che possono integrarsi nel catalogo e popolarlo automaticamente. Le seguenti sezioni forniscono ulteriori informazioni sui caso d'uso specifici supportati dai servizi AWS che possono popolare il catalogo dati.

AWS Lake Formation

AWS Lake Formation è un servizio che semplifica la configurazione di un data lake sicuro in AWS. Lake Formation è costruito su AWS Glue, e Lake Formation e AWS Glue condividono lo stesso AWS Glue Data Catalog. È possibile registrare la posizione dati di Amazon S3 con Lake Formation e utilizzare la console Lake Formation per creare database e tabelle nel catalogo dati di AWS Glue, definire policy di accesso e controllare l'accesso ai dati attraverso il data lake da una posizione centrale. È possibile utilizzare il controllo granulare degli accessi di Lake Formation per gestire le risorse esistenti nel catalogo dati e le posizioni di dati di Amazon S3.

Con i dati registrati tramite Lake Formation, è possibile condividere in sicurezza le risorse del catalogo dati tra responsabili IAM, account AWS, organizzazioni AWS e unità organizzative IAM.

Per ulteriori informazioni sulla creazione di risorse del catalogo dati utilizzando Lake Formation, consultare Creare tabelle del catalogo dati e database nella Guida per gli sviluppatori di AWS Lake Formation.

Amazon Athena

Amazon Athena utilizza il catalogo dati per archiviare e recuperare i metadati delle tabelle per i dati di Amazon S3 nell'account AWS. I metadati della tabella consentono al motore di query Athena di sapere come trovare, leggere ed elaborare i dati che si desidera interrogare.

È possibile popolare il file AWS Glue Data Catalog utilizzando direttamente le istruzioni di Athena CREATE TABLE. È possibile definire e popolare manualmente lo schema e i metadati delle partizioni nel catalogo dati senza dover eseguire un crawler.

  1. Nella console Athena, creare un database che memorizzerà i metadati della tabella nel catalogo dati.

  2. Usare l'istruzione CREATE EXTERNAL TABLE per definire lo schema dell'origine dati.

  3. Usare la clausola PARTITIONED BY per definire eventuali chiavi di partizione se i dati sono partizionati.

  4. Usare la clausola LOCATION per specificare il percorso di Amazon S3 in cui vengono archiviati i file di dati effettivi.

  5. Eseguire l'istruzione CREATE TABLE.

    Questa query crea i metadati della tabella nel catalogo dati in base allo schema e alle partizioni definiti, senza svolgere effettivamente il crawling dei dati.

È possibile interrogare la tabella in Athena, che utilizzerà i metadati dal catalogo dati per accedere e interrogare i file di dati in Amazon S3.

Per ulteriori informazioni, consultare Creare database e tabelle nella guida per l'utente di Amazon Athena.