Individuazione dei dati con le tabelle di S3 Metadata

Amazon S3 Metadata accelera l’individuazione dei dati acquisendo automaticamente i metadati per gli oggetti nei bucket per uso generico e memorizzandoli in tabelle Apache Iceberg di sola lettura e completamente gestite su cui è possibile eseguire query. Queste tabelle di sola lettura sono chiamate tabelle di metadati. Quando gli oggetti vengono aggiunti, aggiornati o rimossi dai bucket per uso generico, S3 Metadata aggiorna automaticamente le tabelle di metadati corrispondenti per riflettere le ultime modifiche.

Per impostazione predefinita, S3 Metadata fornisce tre tipi di metadati:

System-defined metadati, come l'ora di creazione e la classe di archiviazione di un oggetto
Metadati degli oggetti personalizzati, come tag, annotazioni e metadati definiti dall'utente inclusi durante il caricamento dell'oggetto
Metadati degli eventi, ad esempio quando un oggetto viene aggiornato o eliminato, e il mittente che ha effettuato la richiesta Account AWS

Con S3 Metadata, puoi trovare, archiviare e interrogare facilmente i metadati per i tuoi oggetti S3, in modo da preparare rapidamente i dati da utilizzare nell'analisi aziendale, nel recupero dei contenuti, nell'intelligenza artificiale e nella formazione su modelli di machine learning () AI/ML e altro ancora.

Per ogni bucket generico, puoi creare una configurazione della tabella di metadati che contiene fino a tre tabelle di metadati:

Tabella del diario: per impostazione predefinita, la configurazione della tabella dei metadati contiene una tabella del diario, che acquisisce gli eventi che si verificano per gli oggetti nel bucket. La tabella del diario registra le modifiche apportate ai dati pressoché in tempo reale, aiutando a individuare i nuovi dati caricati nel bucket, a tenere traccia degli oggetti eliminati di recente, a monitorare le transizioni del ciclo di vita e altro ancora. La tabella del diario registra i nuovi oggetti e gli aggiornamenti degli oggetti e dei relativi metadati (gli aggiornamenti che richiedono un’operazione PUT o un’operazione DELETE).

La tabella del diario acquisisce i metadati solo per gli eventi di modifica (come caricamenti, aggiornamenti ed eliminazioni) che si verificano dopo la creazione della configurazione della tabella dei metadati. Poiché questa tabella è sottoponibile a query, è possibile controllare le modifiche al bucket tramite semplici query SQL.

La tabella del diario è obbligatoria per ogni configurazione della tabella dei metadati. Nella versione iniziale di S3 Metadata, la tabella del diario era denominata “tabella dei metadati”.

Per ulteriori informazioni sui dati archiviati nelle tabelle del diario, consulta Schema delle tabelle del diario di S3 Metadata.

Per ridurre al minimo i costi di archiviazione, è possibile scegliere la scadenza dei record della tabella del diario. Per ulteriori informazioni, consulta Scadenza dei record della tabella del diario.
Tabella di inventario in tempo reale: facoltativamente, è possibile aggiungere una tabella di inventario in tempo reale alla configurazione della tabella dei metadati. La tabella di inventario in tempo reale fornisce un inventario semplice e sottoponibile a query di tutti gli oggetti e delle relative versioni presenti nel bucket in modo da poter determinare lo stato più recente dei dati.

È possibile utilizzare la tabella di inventario in tempo reale per semplificare e velocizzare i flussi di lavoro aziendali e i processi relativi ai big data individuando gli oggetti che si desidera elaborare per vari carichi di lavoro. Ad esempio, puoi interrogare la tabella di inventario live per trovare tutti gli oggetti archiviati in una particolare classe di archiviazione, tutti gli oggetti con determinati tag, tutti gli oggetti che non sono crittografati con la crittografia lato server utilizzando AWS Key Management Service (AWS KMS) keys (SSE-KMS) e altro ancora.

Se si abilita la tabella di inventario in tempo reale per la configurazione della tabella dei metadati, la tabella viene sottoposta a un processo noto come riempimento, durante il quale Amazon S3 analizza il bucket per uso generico per recuperare i metadati iniziali per tutti gli oggetti presenti nel bucket. A seconda del numero di oggetti nel bucket, questo processo può richiedere da minuti (minimo 15 minuti) a ore. Al termine del processo di riempimento, lo stato della tabella di inventario in tempo reale passa da Riempimento in corso ad Attivo. Una volta completato il riempimento, gli aggiornamenti degli oggetti si riflettono in genere nella tabella di inventario in tempo reale entro un’ora.

Il riempimento della tabella di inventario viene addebitato. Se il bucket per uso generico contiene più di un miliardo di oggetti, verrà addebitata anche una tariffa mensile per la tabella di inventario in tempo reale. Per ulteriori informazioni, consulta Prezzi di Amazon S3.

Per ulteriori informazioni sui dati memorizzati nelle tabelle di inventario in tempo reale, consulta Schema delle tabelle di inventario in tempo reale di S3 Metadata.
Tabella delle annotazioni: facoltativamente, puoi aggiungere una tabella di annotazioni alla configurazione della tabella dei metadati. La tabella delle annotazioni tiene traccia delle annotazioni più recenti sugli oggetti nel bucket e rende il contenuto delle annotazioni direttamente interrogabile. Ogni riga rappresenta un'annotazione su una versione specifica dell'oggetto.

È possibile utilizzare la tabella di annotazione per scoprire e recuperare oggetti in base ai valori delle annotazioni. Ad esempio, è possibile interrogare la tabella delle annotazioni per trovare tutti gli oggetti con una chiave di annotazione specifica, recuperare il contenuto dell'annotazione che corrisponde a un predicato in base alla dimensione dell'oggetto o al prefisso della chiave o correlare le annotazioni tra gli oggetti.

Per ulteriori informazioni sulla configurazione della tabella delle annotazioni, vedere. Abilitazione o disabilitazione delle tabelle di annotazione Per ulteriori informazioni sullo schema della tabella di annotazione, vedere. Schema della tabella di annotazione dei metadati S3

Le tabelle dei metadati sono archiviate in un bucket di tabelle S3 AWS gestito, che fornisce uno storage ottimizzato per i dati tabulari. Per interrogare i tuoi metadati, puoi integrare il tuo table bucket con Amazon SageMaker Lakehouse. Questa integrazione, che utilizza AWS Glue Data Catalog and AWS Lake Formation, consente ai servizi di AWS analisi di scoprire e accedere automaticamente ai dati delle tabelle.

Una volta integrato il table bucket con AWS Glue Data Catalog, puoi interrogare direttamente le tabelle di metadati con servizi di AWS analisi come Amazon Athena, Amazon EMR e Amazon Redshift. Puoi anche creare dashboard interattive con i dati delle tue query utilizzando Amazon Quick. Per ulteriori informazioni sull'integrazione del tuo table bucket S3 AWS gestito con Amazon SageMaker Lakehouse, consulta. Integrazione delle tabelle Amazon S3 con AWS servizi di analisi

Puoi anche interrogare le tue tabelle di metadati con Apache Spark e qualsiasi altra applicazione che supporti il Apache Iceberg formato utilizzando l'endpoint REST, l'endpoint AWS Glue Iceberg REST di Amazon S3 Tables o l'Amazon S3 Iceberg Tables Catalog per il catalogo dei clienti. Apache Trino Apache Iceberg Per ulteriori informazioni sull’accesso alle tabelle dei metadati, consulta Accesso ai dati delle tabelle.

Per i prezzi di S3 Metadata, consulta Prezzi di Amazon S3.

Come funzionano le tabelle di metadati

Le tabelle dei metadati sono gestite da Amazon S3 e non possono essere modificate da alcun principale IAM al di fuori di Amazon S3 stesso (è tuttavia possibile eliminare le tabelle dei metadati). Di conseguenza, le tabelle dei metadati sono di sola lettura, per garantire che riflettano correttamente il contenuto del bucket per uso generico.

Per generare e archiviare i metadati degli oggetti in tabelle di metadati AWS gestite, crei una configurazione della tabella di metadati per il tuo bucket generico. Amazon S3 è progettato per aggiornare continuamente la tabella dei metadati e riflettere le ultime modifiche ai dati, purché la configurazione sia attiva nel bucket per uso generico.

Per creare una configurazione di tabelle dei metadati, è necessario disporre delle autorizzazioni AWS Identity and Access Management (IAM) richieste per creare e gestire le tabelle dei metadati. Per ulteriori informazioni, consulta Impostazione delle autorizzazioni per la configurazione delle tabelle di metadati.

Archiviazione, organizzazione e crittografia delle tabelle dei metadati

Quando si crea la configurazione della tabella dei metadati, le tabelle dei metadati vengono archiviate in un bucket di tabelle gestito da AWS . Tutte le configurazioni delle tabelle di metadati nel tuo account e nella stessa regione sono archiviate in un unico bucket di tabelle gestito. AWS Questi bucket di tabelle AWS gestiti sono denominati aws-s3 e hanno il seguente formato Amazon Resource Name (ARN):

arn:aws:s3tables:region:account_id:bucket/aws-s3

Ad esempio, se l'ID dell'account è 123456789012 e il bucket generico si trova negli Stati Uniti orientali (Virginia settentrionale) (us-east-1), il bucket da tavolo AWS gestito viene creato anche negli Stati Uniti orientali (Virginia settentrionale) () e ha il seguente ARN: us-east-1

arn:aws:s3tables:us-east-1:123456789012:bucket/aws-s3

Per impostazione predefinita, i bucket di tabella AWS gestiti sono crittografati con crittografia lato server utilizzando chiavi gestite di Amazon S3 (). SSE-S3 Dopo aver creato la prima configurazione di metadati, puoi impostare l'impostazione di crittografia predefinita per il bucket table AWS gestito in modo che utilizzi la crittografia lato server con () keys (). AWS Key Management Service AWS KMS SSE-KMS Per ulteriori informazioni, consulta Encryption for AWS managed table bucket e. Specificare la crittografia lato server con AWS KMS chiavi (SSE-KMS) nei bucket da tabella

All'interno del bucket di tabelle AWS gestite, le tabelle di metadati per la configurazione sono in genere archiviate in uno spazio dei nomi con il seguente formato di denominazione:

b_general-purpose-bucket-name

Nota

Se il nome del bucket per uso generico contiene punti, questi vengono convertiti in caratteri di sottolineatura (_) nel nome del namespace.
Se il bucket per uso generico è stato creato prima del 1° marzo 2018, il suo nome potrebbe contenere lettere maiuscole e caratteri di sottolineatura, inoltre potrebbe anche essere lungo fino a 255 caratteri. Se il nome del bucket presenta queste caratteristiche, il namespace di tabelle dei metadati avrà un formato diverso. Il nome del bucket per uso generico viene preceduto dab_, troncato a 63 caratteri, convertito in lettere minuscole e contrassegnato con il suffisso hash.

Le tabelle dei metadati hanno il seguente formato di nome della risorsa Amazon (ARN), che include l’ID della tabella dei metadati:

arn:aws:s3tables:region-code:account-id:bucket/aws-s3/table/table-id

Ad esempio, una tabella dei metadati nella Regione Stati Uniti orientali (Virginia settentrionale) avrebbe un ARN simile al seguente:

arn:aws:s3tables:us-east-1:111122223333:bucket/aws-s3/table/a12bc345-67d8-912e-3456-7f89123g4h56

Le tabelle del diario hanno il nome journal e le tabelle di inventario in tempo reale hanno il nome inventory.

Quando crei la configurazione della tabella di metadati, puoi scegliere di crittografare le tabelle di metadati AWS gestite con la crittografia lato server utilizzando () keys (). AWS Key Management Service AWS KMS SSE-KMS Se scegli di utilizzarla SSE-KMS, devi fornire una chiave KMS gestita dal cliente nella stessa regione del bucket generico. È possibile impostare il tipo di crittografia per le tabelle solo durante la creazione della tabella. Dopo aver creato una tabella gestita da AWS , non è possibile modificarne le impostazioni di crittografia. SSE-KMS Per specificare le tabelle di metadati, devi disporre di determinate autorizzazioni. Per ulteriori informazioni, consulta Autorizzazioni per. SSE-KMS

L’impostazione di crittografia per una tabella dei metadati ha la precedenza sull’impostazione di crittografia predefinita a livello di bucket. Se non specifichi la crittografia, la tabella erediterà l’impostazione di crittografia predefinita del bucket.

AWS i bucket di tabelle gestiti non vengono conteggiati ai fini delle quote di S3 Tables. Per ulteriori informazioni sull'utilizzo dei bucket di tabella AWS gestiti e delle tabelle gestite, consulta Lavorare con AWS i bucket di tabella AWS gestiti.

Per monitorare gli aggiornamenti della configurazione della tabella dei metadati, si può usare AWS CloudTrail. Per ulteriori informazioni, consulta Azioni a livello di bucket di Amazon S3 tracciate mediante registrazione CloudTrail.

Manutenzione della tabella dei metadati e scadenza dei record

Per far sì che le tabelle di metadati funzionino al meglio, Amazon S3 esegue attività di manutenzione periodica sulle tabelle, come la compattazione e la rimozione dei file non referenziati. Queste attività di manutenzione aiutano a minimizzare i costi di archiviazione delle tabelle di metadati e a ottimizzare le prestazioni delle query. La manutenzione della tabella avviene automaticamente, senza bisogno di opt-in o di una gestione continua da parte dell'utente.

Nota

Non è possibile controllare la scadenza degli snapshot della tabella del diario o della tabella di inventario. Per ogni tabella, Amazon S3 archivia almeno 1 snapshot per un massimo di 24 ore.
Per ridurre al minimo i costi, puoi configurare la scadenza dei record della tabella del diario. Per impostazione predefinita, i record delle tabelle del diario non scadono e devono essere mantenuti per un minimo di 7 giorni. Per ulteriori informazioni, consulta Scadenza dei record della tabella del diario.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Modifica dei metadati dell'oggetto

Limitazioni e restrizioni