Query di tabelle di metadati con i servizi di analisi di AWS
Puoi interrogare le tabelle di metadati gestite da S3 utilizzando i servizi di analisi di AWS, come Amazon Athena, Amazon Redshift e Amazon EMR.
Prima di poter eseguire le query, è necessario integrare i bucket di tabelle S3 gestiti da AWS presenti nella Regione e nell’Account AWS con i servizi di analisi AWS.
Query di tabelle di metadati con Amazon Athena
Dopo aver integrato i bucket di tabelle S3 gestiti da AWS con i servizi di analisi AWS, puoi iniziare a eseguire le query sulle tabelle dei metadati in Athena. Nelle query effettua quanto segue:
-
Specifica il catalogo come
s3tablescatalog/aws-s3e il database comeb_(che è in genere il namespace per le tabelle dei metadati).general_purpose_bucket_name
-
Assicurati di racchiudere i nomi dei namespace di tabelle dei metadati tra virgolette (
") o apice inverso (`), in caso contrario la query potrebbe non funzionare.
Per ulteriori informazioni, consulta Query di tabelle Amazon S3 con Athena.
Puoi eseguire query in Athena anche dalla console Amazon S3.
La procedura seguente utilizza la console Amazon S3 per accedere all’editor di query Athena in modo da poter eseguire query su una tabella con Amazon Athena.
Come eseguire query su una tabella dei metadati
Accedi alla Console di gestione AWS e apri la console Amazon S3 all’indirizzo https://console.aws.amazon.com/s3/
. -
Nel riquadro di navigazione sinistro, scegli Bucket per uso generico.
-
Nella scheda Bucket per uso generico, scegli il bucket che contiene la configurazione dei metadati per la tabella di metadati da sottoporre a query.
-
Nella pagina dei dettagli del bucket, scegli la scheda Metadati.
-
Scegli Interroga tabella con Athena, quindi scegli una delle query di esempio per le tabelle del diario o di inventario.
-
Si apre la console Amazon Athena e viene visualizzato l’editor di query Athena con una query di esempio caricata automaticamente. Modifica questa query in base alle esigenze del caso d’uso.
Nell’editor di query, il campo Catalogo deve essere compilato con s3tablescatalog/aws-s3. Il campo Database deve essere compilato con il namespace in cui è archiviata la tabella (ad esempio, b_
general-purpose-bucket-name).Nota
Se non vedi questi valori nei campi Catalogo e Database, assicurati di aver integrato il bucket di tabelle gestito da AWS con i servizi di analisi AWS nella Regione in uso. Per ulteriori informazioni, consulta Integrazione di Tabelle Amazon S3 con i servizi di analisi AWS.
-
Per eseguire la query, scegli Run (Esegui).
Nota
-
Se ricevi l’errore
“Insufficient permissions to execute the query. Principal does not have any privilege on specified resource”quando provi a eseguire una query in Athena, assicurati di disporre delle necessarie autorizzazioni Lake Formation sulla tabella. Per ulteriori informazioni, consulta Concessione dell’autorizzazione Lake Formation per una tabella o un database.Assicurati inoltre di disporre delle autorizzazioni AWS Identity and Access Management (IAM) appropriate per eseguire query sulle tabelle dei metadati. Per ulteriori informazioni, consulta Autorizzazioni per le query sulle tabelle dei metadati.
-
Se ricevi l’errore
“Iceberg cannot access the requested resource”quando provi a eseguire la query, accedi alla console AWS Lake Formation e assicurati di disporre delle autorizzazioni per il catalogo del bucket di tabelle e per il database (namespace) che hai creato. Non specificare una tabella quando fornisci queste autorizzazioni. Per ulteriori informazioni, consulta Concessione dell’autorizzazione Lake Formation per una tabella o un database.
-
Query di tabelle di metadati con Amazon Redshift
Dopo aver integrato i bucket di tabelle S3 gestiti da AWS con i servizi di analisi AWS, procedi come segue:
-
Crea un collegamento alle risorse per il namespace di tabelle dei metadati (in genere
b_).general_purpose_bucket_name -
Assicurati di racchiudere i nomi dei namespace di tabelle dei metadati tra virgolette (
") o apice inverso (`), in caso contrario la query potrebbe non funzionare.
Al termine, puoi iniziare a eseguire query sulle tabelle dei metadati nella console di Amazon Redshift. Per ulteriori informazioni, consulta Accesso alle tabelle Amazon S3 con Amazon Redshift.
Query di tabelle di metadati con Amazon EMR
Per eseguire query sulle tabelle dei metadati utilizzando Amazon EMR, crei un cluster Amazon EMR configurato per Apache Iceberg e lo colleghi alle tabelle dei metadati utilizzando Apache Spark. Puoi configurarlo integrando i bucket di tabelle S3 gestiti da AWS con i servizi di analisi AWS o utilizzando il catalogo di Tabelle Amazon S3 open-source per il catalogo del client Iceberg.
Nota
Quando si utilizza Apache Spark su Amazon EMR o altri motori di terze parti per eseguire query sulle tabelle dei metadati, è consigliabile utilizzare l’endpoint REST Iceberg di Tabelle Amazon S3. La query potrebbe non funzionare correttamente se non utilizzi questo endpoint. Per ulteriori informazioni, consulta Accesso alle tabelle utilizzando l’endpoint Iceberg REST di Tabelle Amazon S3.
Per ulteriori informazioni, consulta Accesso alle tabelle Amazon S3 con Amazon EMR.