Registra i cataloghi dei bucket da tavolo S3 e consulta le tabelle di Athena - Amazon Athena

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Registra i cataloghi dei bucket da tavolo S3 e consulta le tabelle di Athena

I bucket da tabella Amazon S3 sono un tipo di bucket in Amazon S3 progettato appositamente per archiviare dati tabulari nelle tabelle Apache Iceberg. I Table bucket automatizzano le attività di gestione delle tabelle come la compattazione, la gestione delle istantanee e la raccolta dei rifiuti per ottimizzare continuamente le prestazioni delle query e ridurre al minimo i costi. Che tu sia agli inizi o abbia migliaia di tabelle nel tuo ambiente Iceberg, i table bucket semplificano i data lake su qualsiasi scala. Per ulteriori informazioni, consulta Table buckets.

Considerazioni e limitazioni

  • Tutte le operazioni DDL supportate per le tabelle Iceberg sono supportate per le tabelle S3 con le seguenti eccezioni:

    • ALTER TABLE RENAME, e non CREATE VIEW sono supportate. ALTER DATABASE

    • OPTIMIZEe VACUUM — Puoi gestire la compattazione e la gestione delle istantanee in S3. Per ulteriori informazioni, consulta la documentazione di manutenzione di S3 Tables.

  • Le query DDL sulle tabelle S3 registrate come sorgenti dati Athena non sono supportate.

  • Il riutilizzo dei risultati delle query non è supportato.

  • Nei gruppi di lavoro con SSE-KMS, crittografia CSE-KMS abilitata, non è possibile eseguire operazioni di scrittura comeINSERT,, o su tabelle S3. UPDATE DELETE MERGE

  • Nei gruppi di lavoro con l'opzione S3 Requester Pays abilitata, non puoi eseguire operazioni DML su S3 Tables.

Interroga le tabelle S3 da Athena

Completa questi passaggi preliminari prima di interrogare S3 Tables in Athena
  1. Crea un bucket per tabelle S3. Per ulteriori informazioni, consulta Creating a table bucket nella Guida per l'utente di Amazon Simple Storage Service.

  2. Assicurati che l'integrazione dei tuoi table bucket con AWS Glue Data Catalog e abbia successo seguendo i Prerequisiti per l'integrazione e AWS Lake Formation l'integrazione dei table bucket con i AWS servizi di analisi nella Guida per l'utente di Amazon Simple Storage Service.

    Nota

    Se hai abilitato l'integrazione durante la creazione di un bucket di tabelle S3 dalla console S3 nel passaggio 1, puoi saltare questo passaggio.

  3. Per il principale che usi per eseguire le query con Athena, concedi le autorizzazioni Lake Formation sul catalogo S3 Table, tramite la console Lake Formation oppure. AWS CLI

    AWS Management Console
    1. Apri la AWS Lake Formation console all'indirizzo https://console.aws.amazon.com/lakeformation/ e accedi come amministratore del data lake. Per ulteriori informazioni su come creare un amministratore di data lake, consulta Creare un amministratore di data lake.

    2. Nel riquadro di navigazione scegli Autorizzazioni dati, quindi seleziona Concedi.

    3. Nella pagina Concedi autorizzazioni, in Principali, scegli il principale che desideri utilizzare per inviare la query da Athena.

    4. In LF-Tags o risorse del catalogo, scegli Risorse Catalogo dati denominato.

    5. Per Cataloghi, scegli un catalogo di dati di Glue creato dall'integrazione del proprio bucket di tabelle. Ad esempio, :s3tablescatalog/. <accoundID> amzn-s3-demo-bucket

    6. Per le autorizzazioni del catalogo, scegli Super.

    7. Scegli Concessione.

    AWS CLI

    Esegui il comando seguente con il ruolo di amministratore del data lake di Lake Formation per concedere l'accesso al principale che usi per inviare la query da Athena.

    aws lakeformation grant-permissions \ --region <region (Example,us-east-1)> \ --cli-input-json \ '{ "Principal": { "DataLakePrincipalIdentifier": "<user or role ARN (Example, arn:aws:iam::<Account ID>:role/ExampleRole>" }, "Resource": { "Catalog": { "Id":"<Account ID>:s3tablescatalog/amzn-s3-demo-bucket" } }, "Permissions": ["ALL"] }'
Invia domande per S3 Tables
  1. Invia una CREATE DATABASE richiesta da Athena con l'utente/ruolo sopra concesso. In questo esempio, s3tablescatalog è il Glue Data Catalog principale creato dall'integrazione ed s3tablescatalog/amzn-s3-demo-bucket è il Glue Data Catalog secondario creato per ogni bucket da tavolo S3. Esistono due modi in cui è possibile eseguire le interrogazioni.

    Option 1

    Specificare il file secondario Glue Data Catalog (s3tablescatalog/amzn-s3-demo-bucket) direttamente dalla console o AWS CLI.

    Usando AWS Management Console

    1. Apri la console Athena all'indirizzo https://console.aws.amazon.com/athena/.

    2. Nella barra di navigazione a sinistra, per Nome dell'origine dati, scegli AwsDataCatalog.

    3. Per Catalog, scegli amzn-s3-demo-buckets3tablescatalog/.

    4. Nell'editor di query, inserisci una query simile a. CREATE DATABASE test_namespace

    Usando AWS CLI

    Esegui il comando seguente.

    aws athena start-query-execution \ --query-string 'CREATE DATABASE `test_namespace`' \ --query-execution-context '{"Catalog": "s3tablescatalog/amzn-s3-demo-bucket"}' \ --work-group "primary"
    Option 2

    Crea il catalogo dati Athena dal Glue Data Catalog secondario nella console Athena e specificalo come catalogo nella query. Per ulteriori informazioni, consulta Registra i cataloghi di bucket da tavolo S3 come fonti di dati Athena.

  2. Con il database che hai creato nel passaggio precedente, usa CREATE TABLE per creare una tabella. L'esempio seguente crea una tabella nel test_namespace database creato in precedenza nel catalogo s3tablescatalog/amzn-s3-demo-bucket Glue.

    AWS Management Console
    1. Nella barra di navigazione a sinistra, per Nome dell'origine dati, scegliete AwsDataCatalog.

    2. Per Catalog, scegli amzn-s3-demo-buckets3tablescatalog/.

    3. Per Database, scegli test_namespace.

    4. Nell'editor di query, esegui la seguente query.

      CREATE TABLE daily_sales ( sale_date date, product_category string, sales_amount double) PARTITIONED BY (month(sale_date)) TBLPROPERTIES ('table_type' = 'iceberg')
    AWS CLI

    Esegui il comando seguente.

    aws athena start-query-execution \ --query-string "CREATE TABLE daily_sales ( sale_date date, product_category string, sales_amount double) PARTITIONED BY (month(sale_date)) TBLPROPERTIES ('table_type' = 'iceberg')" \ --query-execution-context '{"Catalog": "s3tablescatalog/amzn-s3-demo-bucket", "Database":"test_namespace"}' \ --work-group "primary"
  3. Inserisci i dati nella tabella che hai creato nel passaggio precedente.

    AWS Management Console
    1. Nella barra di navigazione a sinistra, per Nome dell'origine dati, scegli AwsDataCatalog.

    2. Per Catalog, scegli amzn-s3-demo-buckets3tablescatalog/.

    3. Per Database, scegli test_namespace.

    4. Nell'editor di query, esegui la seguente query.

      INSERT INTO daily_sales VALUES (DATE '2024-01-15', 'Laptop', 900.00), (DATE '2024-01-15', 'Monitor', 250.00), (DATE '2024-01-16', 'Laptop', 1350.00), (DATE '2024-02-01', 'Monitor', 300.00);
    AWS CLI

    Esegui il comando seguente.

    aws athena start-query-execution \ --query-string "INSERT INTO \"s3tablescatalog/amzn-s3-demo-bucket\".test_namespace.daily_sales VALUES (DATE '2024-01-15', 'Laptop', 900.00), (DATE '2024-01-15', 'Monitor', 250.00), (DATE '2024-01-16', 'Laptop', 1350.00), (DATE '2024-02-01', 'Monitor', 300.00)"\ --work-group "primary"
  4. Dopo aver inserito i dati nella tabella, è possibile interrogarla.

    AWS Management Console
    1. Nella barra di navigazione a sinistra, per Nome dell'origine dati, scegli AwsDataCatalog.

    2. Per Catalog, scegli amzn-s3-demo-buckets3tablescatalog/.

    3. Per Database, scegli test_namespace.

    4. Nell'editor di query, esegui la seguente query.

      SELECT product_category, COUNT(*) AS units_sold, SUM(sales_amount) AS total_revenue, AVG(sales_amount) AS average_price FROM daily_sales WHERE sale_date BETWEEN DATE '2024-02-01' AND DATE '2024-02-29' GROUP BY product_category ORDER BY total_revenue DESC
    AWS CLI

    Esegui il comando seguente.

    aws athena start-query-execution \ --query-string "SELECT product_category, COUNT(*) AS units_sold, SUM(sales_amount) AS total_revenue, AVG(sales_amount) AS average_price FROM \"s3tablescatalog/amzn-s3-demo-bucket\".test_namespace.daily_sales WHERE sale_date BETWEEN DATE '2024-02-01' AND DATE '2024-02-29' GROUP BY product_category ORDER BY total_revenue DESC"\ --work-group "primary"

Crea tabelle S3 in Athena

Athena supporta la creazione di tabelle nei namespace S3 Table esistenti o nei namespace creati in Athena con istruzioni. CREATE DATABASE Per creare una tabella S3 da Athena, la sintassi è la stessa di quando si crea una normale tabella Iceberg, tranne che non si specifica LOCATION il, come mostrato nell'esempio seguente.

CREATE TABLE [db_name.]table_name (col_name data_type [COMMENT col_comment] [, ...] ) [PARTITIONED BY (col_name | transform, ... )] [TBLPROPERTIES ([, property_name=property_value] )]

Puoi anche creare tabelle S3 utilizzando le istruzioni CREATE TABLE AS SELECT (CTAS). Per ulteriori informazioni, consulta CTAS per tabelle S3.

Registra i cataloghi di bucket da tavolo S3 come fonti di dati Athena

Per registrare i cataloghi S3 table bucket con la console Athena, procedi nel seguente modo.

  1. Apri la console Athena all'indirizzo https://console.aws.amazon.com/athena/.

  2. Nel riquadro di navigazione, scegli Fonti di dati e cataloghi.

  3. Nella pagina Origini dati e cataloghi, scegli Crea origine dati.

  4. Per Scegli un'origine dati, scegli Amazon S3 -. AWS Glue Data Catalog

  5. Nella AWS Glue Data Catalogsezione, per Account di origine dati, scegli AWS Glue Data Catalog questo account.

  6. Per Creare una tabella o registrare un catalogo, scegli Registra un nuovo AWS Glue catalogo.

  7. Nella sezione Dettagli dell'origine dati, per Nome dell'origine dati, inserisci il nome che desideri utilizzare per specificare l'origine dati nelle tue query SQL o utilizzare il nome predefinito che viene generato.

  8. Per Catalogo, scegli Sfoglia per cercare un elenco di AWS Glue cataloghi nello stesso account. Se non vedi nessun catalogo esistente, creane uno nella AWS Glue console.

  9. Nella finestra di dialogo Sfoglia AWS Glue cataloghi, selezionate il catalogo che desiderate utilizzare, quindi scegliete Scegli.

  10. (Facoltativo) Per i tag, inserite key/value le coppie che desiderate associare all'origine dati.

  11. Scegli Next (Successivo).

  12. Nella pagina Rivedi e crea, verifica che le informazioni inserite siano corrette, quindi scegli Crea origine dati.

CTAS per tabelle S3

Amazon Athena ora supporta le operazioni CREATE TABLE AS SELECT (CTAS) per le tabelle S3. Questa funzionalità consente di creare nuove tabelle S3 in base ai risultati di una query SELECT.

Quando si crea una query CTAS per una tabella S3, ci sono alcune importanti differenze rispetto alle tabelle Athena standard:

  • È necessario omettere la proprietà location perché le tabelle S3 gestiscono automaticamente le proprie posizioni di archiviazione.

  • L'impostazione predefinita della table_type proprietà èICEBERG, quindi non è necessario specificarla esplicitamente nella query.

  • Se non specificate un formato, il sistema lo utilizza automaticamente PARQUET come formato predefinito per i dati.

  • Tutte le altre proprietà seguono la stessa sintassi delle normali tabelle Iceberg.

Prima di creare tabelle S3 utilizzando CTAS, assicurati di avere le autorizzazioni necessarie configurate in. AWS Lake Formation In particolare, sono necessarie le autorizzazioni per creare tabelle nel catalogo S3 Tables. Senza queste autorizzazioni, le operazioni CTAS falliranno.

Nota

Se la tua query CTAS fallisce, potresti dover eliminare la tabella utilizzando l'API S3 Tables prima di tentare di rieseguire la query. non puoi usare le DROP TABLE istruzioni Athena per rimuovere la tabella che è stata parzialmente creata dalla query.

Esempio

CREATE TABLE "s3tablescatalog/amzn-s3-demo-bucket"."namespace"."s3-table-name" WITH ( format = 'PARQUET' ) AS SELECT * FROM source_table;