Connessione alle origini dati - Amazon Athena

Connessione alle origini dati

Puoi utilizzare Amazon Athena per eseguire query sui dati archiviati in posizioni e formati differenti in un set di dati. Il formato di questo set di dati potrebbe essere CSV, JSON, Avro, Parquet o un altro.

Le tabelle e i database che utilizzi in Athena per eseguire query sono basati su metadati. I metadati sono dati relativi ai dati sottostanti nel set di dati. Il modo in cui i metadati descrivono il set di dati viene chiamato schema. Ad esempio, un nome di tabella, i nomi di colonna nella tabella e il tipo di dati di ogni colonna sono uno schema, salvato come metadati, che descrive un set di dati sottostante. In Athena, un sistema per l'organizzazione dei metadati viene chiamato un catalogo dati o un metastore. La combinazione di un set di dati e del catalogo dati che lo descrive viene chiamata origine dati.

La relazione di metadati rispetto a un set di dati sottostante dipende dal tipo di origine dati utilizzato. Le origini dati relazionali come MySQL, PostgreSQL e SQL Server integrano strettamente i metadati con il set di dati. In questi sistemi, i metadati vengono spesso scritti al momento della scrittura dei dati. Altre origini dati, come quelle create utilizzando Hive, consentono di definire i metadati in modo immediato durante la lettura del set di dati. Il set di dati può essere in diversi formati, ad esempio CSV, JSON, Parquet o Avro.

Athena supporta in modo nativo AWS Glue Data Catalog. AWS Glue Data Catalog è un catalogo dati basato su altri set di dati e origini dati come Amazon S3, Amazon Redshift e Amazon DynamoDB. Puoi inoltre connettere Athena ad altre origini dati utilizzando diversi connettori.