Accesso ai dati delle tabelle - Amazon Simple Storage Service

Accesso ai dati delle tabelle

Esistono diversi modi per accedere alle tabelle nei bucket di tabelle Amazon S3, puoi integrare le tabelle con i servizi di analisi AWS utilizzando Amazon SageMaker Lakehouse o accedere direttamente alle tabelle utilizzando l’endpoint Iceberg REST di Tabelle Amazon S3 o il Catalogo di Tabelle Amazon S3 per Apache Iceberg. Il metodo di accesso utilizzato dipende dalla configurazione del catalogo, dal modello di governance e dalle esigenze di controllo degli accessi. Di seguito è riportata una panoramica di questi metodi di accesso.

Integrazione di Amazon SageMaker Lakehouse

Questo è il metodo di accesso consigliato per utilizzare le tabelle nei bucket di tabelle S3. L’integrazione offre una gestione unificata delle tabelle, una governance centralizzata e un controllo granulare degli accessi su più servizi di analisi AWS. Dopo l’integrazione, è possibile eseguire le query sulle tabelle utilizzando i servizi come Athena e Amazon Redshift.

Accesso diretto

Utilizza questo metodo per implementazioni di cataloghi AWS Partner Network (APN), implementazioni di cataloghi personalizzati o semplicemente per eseguire operazioni di lettura/scrittura di base su tabelle all’interno di un singolo bucket di tabelle.

Nota

Per accedere alle tabelle, l’identità IAM che utilizzi deve accedere alle risorse delle tabelle e alle azioni di Tabelle S3. Per ulteriori informazioni, consulta Gestione degli accessi per Tabelle S3.

Accesso alle tabelle tramite l’integrazione con Amazon SageMaker Lakehouse

È possibile integrare i bucket di tabelle S3 con Amazon SageMaker Lakehouse per accedere alle tabelle dai servizi di analisi AWS, come Amazon Athena, Amazon Redshift e Quick Suite. Amazon SageMaker Lakehouse unifica i dati tra i data lake Amazon S3 e i data warehouse Amazon Redshift, in modo da poter creare applicazioni di analisi, machine learning (ML) e IA generativa su un’unica copia di dati. L’integrazione popola il AWS Glue Data Catalog con le risorse della tabella e crea la federazione per l’accesso a queste risorse con AWS Lake Formation. Per ulteriori informazioni sull’integrazione, consulta Integrazione di Tabelle Amazon S3 con i servizi di analisi AWS.

L’integrazione consente un controllo degli accessi dettagliato tramite AWS Lake Formation per garantire ulteriore sicurezza. Lake Formation utilizza una combinazione del proprio modello di autorizzazioni e del modello di autorizzazioni IAM per controllare l’accesso alle risorse delle tabelle e ai dati sottostanti. Ciò significa che una richiesta di accesso alla tabella deve superare i controlli di autorizzazione sia di IAM sia di Lake Formation. Per ulteriori informazioni, consulta Panoramica delle autorizzazioni di Lake Formation nella Guida per gli sviluppatori di AWS Lake Formation.

I seguenti servizi di analisi AWS possono accedere alle tabelle tramite questa integrazione:

Accesso alle tabelle utilizzando l’endpoint AWS Glue Iceberg REST

Una volta integrati i bucket di tabelle S3 con Amazon SageMaker Lakehouse, è possibile utilizzare l’endpoint AWS Glue Iceberg REST per connettersi alle tabelle S3 da motori di query di terze parti che supportano Iceberg. Per ulteriori informazioni, consulta Accesso alle tabelle Amazon S3 utilizzando l’endpoint AWS Glue Iceberg REST.

È consigliabile utilizzare l’endpoint AWS Glue Iceberg REST per accedere alle tabelle da Spark, PyIceberg o altri client compatibili con Iceberg.

I seguenti client possono accedere alle tabelle direttamente tramite l’endpoint AWS Glue Iceberg REST:

  • Qualsiasi client Iceberg, inclusi Spark, PyIceberg e altri.

Accesso diretto alle tabelle

È possibile accedere alle tabelle direttamente dai motori di query open source attraverso metodi che collegano le operazioni di gestione di Tabelle S3 alle applicazioni di analisi Apache Iceberg. Esistono due metodi di accesso diretto: l’endpoint Iceberg REST di Tabelle Amazon S3 o il Catalogo di Tabelle Amazon S3 per Apache Iceberg. L’endpoint REST è la scelta consigliata.

È consigliabile l’utilizzo dell’accesso diretto se si accede alle tabelle in implementazioni di cataloghi autogestite o se è necessario eseguire solo operazioni di lettura/scrittura di base sulle tabelle in un unico bucket di tabelle. Per altri scenari di accesso, è consigliabile l’integrazione con Amazon SageMaker Lakehouse.

L’accesso diretto alle tabelle viene gestito tramite policy basate sull’identità IAM o policy basate sulle risorse collegate a tabelle e bucket di tabelle. Non è necessario gestire le autorizzazioni Lake Formation per le tabelle quando vi si accede direttamente.

Accesso alle tabelle tramite l’endpoint Iceberg REST di Tabelle Amazon S3

È possibile utilizzare l’endpoint Iceberg REST di Tabelle Amazon S3 per accedere alle tabelle direttamente da qualsiasi client compatibile con Iceberg REST tramite endpoint HTTP. Per ulteriori informazioni, consulta Accesso alle tabelle utilizzando l’endpoint Iceberg REST di Tabelle Amazon S3.

I seguenti servizi di analisi AWS e motori di query possono accedere direttamente alle tabelle utilizzando l’endpoint Iceberg REST di Tabelle Amazon S3:

Motori di query supportati

Accesso alle tabelle direttamente tramite il catalogo Tabelle Amazon S3 per Apache Iceberg

È possibile accedere alle tabelle direttamente anche dai motori di query, ad esempio Apache Spark, utilizzando il catalogo client di Tabelle S3. Per ulteriori informazioni, consulta Accesso alle tabelle Amazon S3 con il catalogo di Tabelle Amazon S3 per Apache Iceberg. Tuttavia, S3 consiglia di utilizzare l’endpoint Iceberg REST di Tabelle Amazon S3 per l’accesso diretto perché supporta più applicazioni, senza richiedere un linguaggio o un codice specifico del motore.

I seguenti motori di query possono accedere direttamente alle tabelle utilizzando il catalogo client: