Utilizzare un crawler per aggiungere una tabella - Amazon Athena

Utilizzare un crawler per aggiungere una tabella

I crawler di AWS Glue aiutano a scoprire gli schemi per i set di dati e li registrano come tabelle nel catalogo dati di AWS Glue. I crawler analizzano i dati e ne determinano lo schema. Inoltre, il crawler è in grado di rilevare e registrare le partizioni. Per ulteriori informazioni, consultare Definizione di crawler nella Guida per gli sviluppatori di AWS Glue. Le tabelle dei dati correttamente sottoposte a ricerca per indicizzazione possono essere interrogate da Athena.

Nota

Athena non riconosce l'opzione escludi modelli che specifichi per un crawler AWS Glue. Ad esempio, se disponi di un bucket Amazon S3 che contiene i file .csv e .json ed escludi i file .json dal crawler, Athena esegue query su entrambi i gruppi di file. Per evitare ciò, posizionare i file che si desidera escludere in una posizione diversa.

Creare un crawler AWS Glue

Puoi creare un crawler partendo dalla console Athena e quindi utilizzando la console AWS Glue in un modo integrato. Quando crei il crawler, specifica una posizione dei dati in Amazon S3 per eseguire la ricerca per indicizzazione.

Per creare un crawler in AWS Glue partendo dalla console Athena
  1. Aprire la console Athena all'indirizzo https://console.aws.amazon.com/athena/.

  2. Nell'editor di query, accanto a Tabelle e visualizzazioni, scegli Crea e quindi scegli Crawler AWS Glue.

  3. Sulla paginaAggiungi crawler della console AWS Glue, segui i passaggi per creare un crawler. Per ulteriori informazioni, consulta Utilizzo di crawler AWS Glue in questa guida ePopolamento del AWS Glue Data Catalog nella Guida per gli sviluppatori di AWS Glue.

Nota

Athena non riconosce l'opzione escludi modelli che specifichi per un crawler AWS Glue. Ad esempio, se disponi di un bucket Amazon S3 che contiene i file .csv e .json ed escludi i file .json dal crawler, Athena esegue query su entrambi i gruppi di file. Per evitare ciò, posizionare i file che si desidera escludere in una posizione diversa.

Dopo un crawling, il crawler AWS Glue assegna automaticamente determinati metadati tabella per renderli compatibili con altre tecnologie esterne quali Apache Hive, Presto e Spark. Occasionalmente, il crawler potrebbe assegnare le proprietà dei metadati in modo errato. Correggi manualmente le proprietà in AWS Glue prima di eseguire la query della tabella utilizzando Athena. Per ulteriori informazioni, consulta la sezione relativa alla visualizzazione e modifica dei dettagli tabella nella Guida per sviluppatori AWS Glue.

È possibile che AWS Glue assegni i metadati errati quando un file CSV contiene virgolette attorno a ogni campo di dati, assegnando così la proprietà serializationLib in modo errato. Per ulteriori informazioni, consulta Gestire dati CSV tra virgolette.