Utilizzare un crawler per aggiungere una tabella

AWS Glue i crawler aiutano a scoprire lo schema per i set di dati e a registrarli come tabelle nel Data Catalog. AWS Glue I crawler analizzano i dati e ne determinano lo schema. Inoltre, il crawler è in grado di rilevare e registrare le partizioni. Per ulteriori informazioni, consultare Definizione di crawler nella Guida per gli sviluppatori di AWS Glue . Le tabelle dei dati correttamente sottoposte a ricerca per indicizzazione possono essere interrogate da Athena.

Nota

Athena non riconosce i pattern di esclusione specificati per un AWS Glue crawler. Ad esempio, se disponi di un bucket Amazon S3 che contiene i file .csv e .json ed escludi i file .json dal crawler, Athena esegue query su entrambi i gruppi di file. Per evitare ciò, posizionare i file che si desidera escludere in una posizione diversa.

Create un crawler AWS Glue

Puoi creare un crawler partendo dalla console Athena e quindi utilizzando la console AWS Glue in un modo integrato. Quando crei il crawler, specifica una posizione dei dati in Amazon S3 per eseguire la ricerca per indicizzazione.

Per creare un crawler AWS Glue partendo dalla console Athena

Apri la console Athena all'indirizzo https://console.aws.amazon.com/athena/.
Nell'editor di query, accanto a Tabelle e visualizzazioni, scegli Crea e quindi scegli Crawler AWS Glue .
Sulla paginaAggiungi crawler della console AWS Glue, segui i passaggi per creare un crawler. Per ulteriori informazioni, consulta Using AWS Glue Crawler in questa guida e Population the nella Developer Guide. AWS Glue Data CatalogAWS Glue

Nota

Dopo una scansione, il AWS Glue crawler assegna automaticamente determinati metadati alla tabella per renderla compatibile con altre tecnologie esterne come Apache Hive, Presto e Spark. Occasionalmente, il crawler potrebbe assegnare le proprietà dei metadati in modo errato. Correggete manualmente le proprietà AWS Glue prima di interrogare la tabella utilizzando Athena. Per ulteriori informazioni, consulta la sezione relativa alla visualizzazione e modifica dei dettagli tabella nella Guida per sviluppatori AWS Glue .

AWS Glue può assegnare erroneamente i metadati quando un file CSV contiene virgolette su ogni campo di dati, sbagliando la proprietà. serializationLib Per ulteriori informazioni, consulta Gestire dati CSV tra virgolette.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Utilizzare un modulo per aggiungere una tabella

Utilizzare più origini dati con un crawler