Utilizzo di Tabelle Amazon S3 e dei bucket di tabelle
Tabelle Amazon S3 fornisce uno storage S3 ottimizzato per i carichi di lavoro di analisi, con funzionalità progettate per migliorare continuamente le prestazioni delle query e ridurre i costi di storage per le tabelle. Le tabelle S3 sono progettate appositamente per l'archiviazione di dati tabulari, come le transazioni di acquisto giornaliere, i dati dei sensori di streaming o le impressioni degli annunci. I dati tabulari rappresentano i dati in colonne e righe, come in una tabella di database.
I dati in Tabelle S3 sono archiviati in un nuovo tipo di bucket: un bucket di tabelle, che archivia le tabelle come sottorisorse. I bucket di tabelle supportano l'archiviazione delle tabelle nel formato Apache Iceberg. Utilizzando istruzioni SQL standard, è possibile eseguire query sulle tabelle con motori di query che supportano Iceberg, come Amazon Athena, Amazon Redshift e Apache Spark.
Argomenti
Funzionalità di Tabelle S3
- Archiviazione appositamente progettata per le tabelle
-
I bucket di tabelle S3 sono progettati specificamente per le tabelle. I bucket di tabelle offrono transazioni al secondo (TPS) più elevate e un throughput di query migliore rispetto alle tabelle autogestite nei bucket per uso generico di S3. I bucket di tabelle offrono la stessa durata, disponibilità e scalabilità degli altri tipi di bucket di Amazon S3.
- Supporto integrato per Apache Iceberg
-
Le tabelle nei bucket vengono archiviate nel formato Apache Iceberg
. È possibile eseguire query su queste tabelle utilizzando SQL standard nei motori di query che supportano Iceberg. Iceberg dispone di diverse funzionalità per ottimizzare le prestazioni delle query, tra cui l'evoluzione dello schema e l'evoluzione delle partizioni. Con Iceberg è possibile modificare l'organizzazione dei dati in modo che possano evolversi nel tempo senza dover riscrivere le query o ricostruire le strutture di dati. Iceberg è progettato per contribuire a garantire la coerenza e l'affidabilità dei dati attraverso il supporto delle transazioni. Per agevolare la correzione dei problemi o eseguire query temporali, è possibile tenere traccia delle variazioni dei dati nel tempo e tornare alle versioni storiche.
- Ottimizzazione automatizzata delle tabelle
-
Per ottimizzare le tabelle per le query, S3 esegue continuamente operazioni di manutenzione automatiche, come la compattazione, la gestione degli snapshot e la rimozione di file senza riferimenti. Queste operazioni aumentano le prestazioni delle tabelle compattando oggetti più piccoli in un numero inferiore di file di dimensioni maggiori. Le operazioni di manutenzione riducono anche i costi di archiviazione ripulendo gli oggetti inutilizzati. La manutenzione automatizzata semplifica il funzionamento dei data lake su larga scala, riducendo la necessità di manutenzione manuale delle tabelle. Per ogni tabella e bucket di tabelle, è possibile personalizzare le configurazioni di manutenzione.
- Gestione degli accessi e sicurezza
-
È possibile gestire l'accesso sia per i bucket di tabelle che per le singole tabelle con AWS Identity and Access Management (IAM) e Policy di controllo dei servizi in AWS Organizations. Tabelle S3 utilizza uno spazio dei nomi di servizio diverso da Amazon S3: s3tables. Pertanto, è possibile progettare policy appositamente per il servizio Tabelle S3 e le relative risorse. È possibile progettare policy per concedere l'accesso a singole tabelle, a tutte le tabelle all'interno di uno spazio dei nomi di tabelle o a interi bucket di tabelle. Tutte le impostazioni di Blocco dell'accesso pubblico Amazon S3 sono sempre abilitate per i bucket di tabelle e non possono essere disabilitate.
- Integrazione con i servizi di analisi di AWS
-
È possibile integrare automaticamente i bucket di Tabelle Amazon S3 con Amazon SageMaker Lakehouse tramite la console S3. Questa integrazione consente ai servizi di analisi AWS di individuare e accedere automaticamente ai dati delle tabelle tramite AWS Glue Data Catalog. Dopo l’integrazione, è possibile lavorare con le tabelle utilizzando servizi di analisi come Amazon Athena, Amazon Redshift, Quick Suite e altri ancora. Per ulteriori informazioni sul funzionamento dell’integrazione, consulta Integrazione di Tabelle Amazon S3 con i servizi di analisi AWS.
Servizi correlati
È possibile utilizzare i seguenti Servizi AWS con Tabelle S3 per supportare applicazioni di analisi specifiche.
-
Amazon Athena: Athena è un servizio di query interattivo che semplifica l'analisi dei dati direttamente in Amazon S3 utilizzando SQL standard. Athena può essere utilizzato anche per eseguire l'analisi dei dati in modo interattivo mediante Apache Spark senza dover pianificare, configurare o gestire le risorse. Quando si eseguono applicazioni Apache Spark su Athena, si invia il codice Spark per l'elaborazione e si ricevono direttamente i risultati.
-
AWS Glue: AWS Glue è un servizio di integrazione dati serverless che consente di semplificare il rilevamento, la preparazione, lo spostamento e l’integrazione di dati da più origini. AWS Glue può essere utilizzato per l’analisi, il machine learning (ML) e lo sviluppo di applicazioni. AWS Glue include anche strumenti aggiuntivi di produttività e gestione dei dati per la creazione, l’esecuzione di processi e l’implementazione dei flussi di lavoro aziendali.
-
Amazon EMR: Amazon EMR è una piattaforma di cluster gestiti che semplifica l'esecuzione di framework di big data, come Apache Hadoop e Apache Spark, su AWS per elaborare e analizzare grandi quantità di dati.
-
Amazon Redshift: Amazon Redshift è un servizio di data warehouse nel cloud in scala petabyte. È possibile utilizzare Amazon Redshift serverless per accedere e analizzare i dati senza le configurazioni di un data warehouse con provisioning. Viene eseguito automaticamente il provisioning delle risorse e la capacità del data warehouse viene dimensionata in modo intelligente per fornire prestazioni rapide per carichi di lavoro maggiormente impegnativi e imprevedibili. Quando il data warehouse è inattivo non vengono addebitati costi, si paga solo l'utilizzo. Puoi caricare i dati e iniziare subito a eseguire query nell'editor di query Amazon Redshift v2 o nello strumento di business intelligence (BI) preferito.
-
Quick Suite: Quick Suite è un servizio di analisi aziendale per la creazione di visualizzazioni, l’esecuzione di analisi ad hoc e la raccolta rapida di informazioni aziendali dai dati. Amazon Quick Suite rileva facilmente le origini dati di AWS e offre prestazioni di query veloci e reattive mediante il motore Quick Suite SPICE (Super-fast, Parallel, In-Memory, Calculation Engine).
-
AWS Lake Formation: Lake Formation è un servizio gestito che semplifica il processo di configurazione, protezione e gestione dei data lake. Lake Formation ti aiuta a individuare le origini dati e quindi a catalogare, pulire e trasformare i dati. Con Lake Formation, è possibile gestire un controllo granulare degli accessi per i dati del data lake su Amazon S3 e i relativi metadati in AWS Glue Data Catalog.