Individuazione dei dati con le tabelle di S3 Metadata - Amazon Simple Storage Service

Individuazione dei dati con le tabelle di S3 Metadata

Amazon S3 Metadata accelera l’individuazione dei dati acquisendo automaticamente i metadati per gli oggetti nei bucket per uso generico e memorizzandoli in tabelle Apache Iceberg di sola lettura e completamente gestite su cui è possibile eseguire query. Queste tabelle di sola lettura sono chiamate tabelle di metadati. Quando gli oggetti vengono aggiunti, aggiornati o rimossi dai bucket per uso generico, S3 Metadata aggiorna automaticamente le tabelle di metadati corrispondenti per riflettere le ultime modifiche.

Per impostazione predefinita, S3 Metadata fornisce tre tipi di metadati:

  • I metadati definiti dal sistema, come l'ora di creazione dell'oggetto e la classe di storage

  • Metadati personalizzati, come tag e metadati definiti dall'utente, inclusi durante il caricamento degli oggetti

  • Metadati sugli eventi, come ad esempio quando un oggetto viene aggiornato o eliminato e Account AWS che ha effettuato la richiesta

Con S3 Metadata, è possibile trovare, memorizzare e interrogare facilmente i metadati per gli oggetti S3 in modo da preparare rapidamente i dati per l'utilizzo nelle analisi aziendali, nel recupero dei contenuti, nell'addestramento di modelli di intelligenza artificiale e machine learning (AI/ML) e altro ancora.

Per ogni bucket per uso generico, è possibile creare una configurazione di tabella dei metadati che contiene due tabelle di metadati complementari:

  • Tabella del diario: per impostazione predefinita, la configurazione della tabella dei metadati contiene una tabella del diario, che acquisisce gli eventi che si verificano per gli oggetti nel bucket. La tabella del diario registra le modifiche apportate ai dati pressoché in tempo reale, aiutando a individuare i nuovi dati caricati nel bucket, a tenere traccia degli oggetti eliminati di recente, a monitorare le transizioni del ciclo di vita e altro ancora. La tabella del diario registra i nuovi oggetti e gli aggiornamenti degli oggetti e dei relativi metadati (gli aggiornamenti che richiedono un’operazione PUT o un’operazione DELETE).

    La tabella del diario acquisisce i metadati solo per gli eventi di modifica (come caricamenti, aggiornamenti ed eliminazioni) che si verificano dopo la creazione della configurazione della tabella dei metadati. Poiché questa tabella è sottoponibile a query, è possibile controllare le modifiche al bucket tramite semplici query SQL.

    La tabella del diario è obbligatoria per ogni configurazione della tabella dei metadati. Nella versione iniziale di S3 Metadata, la tabella del diario era denominata “tabella dei metadati”.

    Per ulteriori informazioni sui dati archiviati nelle tabelle del diario, consulta Schema delle tabelle del diario di S3 Metadata.

    Per ridurre al minimo i costi di archiviazione, è possibile scegliere la scadenza dei record della tabella del diario. Per ulteriori informazioni, consulta Scadenza dei record della tabella del diario.

  • Tabella di inventario in tempo reale: facoltativamente, è possibile aggiungere una tabella di inventario in tempo reale alla configurazione della tabella dei metadati. La tabella di inventario in tempo reale fornisce un inventario semplice e sottoponibile a query di tutti gli oggetti e delle relative versioni presenti nel bucket in modo da poter determinare lo stato più recente dei dati.

    È possibile utilizzare la tabella di inventario in tempo reale per semplificare e velocizzare i flussi di lavoro aziendali e i processi relativi ai big data individuando gli oggetti che si desidera elaborare per vari carichi di lavoro. Ad esempio, è possibile eseguire una query sulla tabella di inventario in tempo reale per trovare tutti gli oggetti archiviati in una particolare classe di archiviazione, tutti gli oggetti con determinati tag, tutti gli oggetti che non sono crittografati con la crittografia lato server utilizzando le chiavi AWS Key Management Service (AWS KMS) (SSE-KMS) e altro ancora.

    Se si abilita la tabella di inventario in tempo reale per la configurazione della tabella dei metadati, la tabella viene sottoposta a un processo noto come riempimento, durante il quale Amazon S3 analizza il bucket per uso generico per recuperare i metadati iniziali per tutti gli oggetti presenti nel bucket. A seconda del numero di oggetti nel bucket, questo processo può richiedere da minuti (minimo 15 minuti) a ore. Al termine del processo di riempimento, lo stato della tabella di inventario in tempo reale passa da Riempimento in corso ad Attivo. Una volta completato il riempimento, gli aggiornamenti degli oggetti si riflettono in genere nella tabella di inventario in tempo reale entro un’ora.

    Il riempimento della tabella di inventario viene addebitato. Se il bucket per uso generico contiene più di un miliardo di oggetti, verrà addebitata anche una tariffa mensile per la tabella di inventario in tempo reale. Per ulteriori informazioni, consulta Prezzi di Amazon S3.

    Per ulteriori informazioni sui dati memorizzati nelle tabelle di inventario in tempo reale, consulta Schema delle tabelle di inventario in tempo reale di S3 Metadata.

Le tabelle dei metadati sono archiviate in un bucket di tabelle S3 gestito da AWS, che fornisce un’archiviazione ottimizzata per i dati tabulari. Per eseguire query sui metadati, è possibile integrare il bucket di tabelle con Amazon SageMaker Lakehouse. Questa integrazione, che utilizza AWS Glue Data Catalog e AWS Lake Formation, consente ai servizi di analisi AWS di individuare e accedere automaticamente ai dati delle tabelle.

Dopo aver integrato il bucket di tabelle con AWS Glue Data Catalog, è possibile eseguire query direttamente sulle tabelle dei metadati con i servizi di analisi AWS come Amazon Athena, Amazon EMR e Amazon Redshift. È anche possibile creare dashboard interattive con i dati della query utilizzando Amazon Quick Suite. Per ulteriori informazioni sull’integrazione del bucket di tabelle S3 gestito da AWS con Amazon SageMaker Lakehouse, consulta Integrazione di Tabelle Amazon S3 con i servizi di analisi AWS.

È anche possibile eseguire query sulle tabelle dei metadati con Apache Spark, Apache Trino e qualsiasi altra applicazione che supporti il formato Apache Iceberg, utilizzando l’endpoint REST AWS Glue Iceberg, l’endpoint REST Iceberg di Tabelle Amazon S3 o il catalogo di Tabelle Amazon S3 per il catalogo del client Apache Iceberg. Per ulteriori informazioni sull’accesso alle tabelle dei metadati, consulta Accesso ai dati delle tabelle.

Per i prezzi di S3 Metadata, consulta Prezzi di Amazon S3.

Come funzionano le tabelle di metadati

Le tabelle dei metadati sono gestite da Amazon S3 e non possono essere modificate da alcun principale IAM al di fuori di Amazon S3 stesso (è tuttavia possibile eliminare le tabelle dei metadati). Di conseguenza, le tabelle dei metadati sono di sola lettura, per garantire che riflettano correttamente il contenuto del bucket per uso generico.

Per generare e memorizzare i metadati degli oggetti in tabelle di metadati gestite da AWS, si crea una configurazione della tabella dei metadati per il bucket per uso generico. Amazon S3 è progettato per aggiornare continuamente la tabella dei metadati e riflettere le ultime modifiche ai dati, purché la configurazione sia attiva nel bucket per uso generico.

Per creare una configurazione di tabelle dei metadati, è necessario disporre delle autorizzazioni AWS Identity and Access Management (IAM) richieste per creare e gestire le tabelle dei metadati. Per ulteriori informazioni, consulta Impostazione delle autorizzazioni per la configurazione delle tabelle di metadati.

Archiviazione, organizzazione e crittografia delle tabelle dei metadati

Quando si crea la configurazione della tabella dei metadati, le tabelle dei metadati vengono archiviate in un bucket di tabelle gestito da AWS. Tutte le configurazioni delle tabelle dei metadati nell’account e nella stessa Regione sono archiviate in un unico bucket di tabelle gestito da AWS. I bucket di tabelle gestiti da AWS sono denominati aws-s3 e hanno il seguente formato del nome della risorsa Amazon (ARN):

arn:aws:s3tables:region:account_id:bucket/aws-s3

Ad esempio, se l’ID dell’account è 123456789012 e il bucket per uso generico si trova negli Stati Uniti orientali (Virginia settentrionale) (us-east-1), anche il bucket di tabelle gestito da AWS viene creato negli Stati Uniti orientali (Virginia settentrionale) (us-east-1) e ha il seguente ARN:

arn:aws:s3tables:us-east-1:123456789012:bucket/aws-s3

Per impostazione predefinita, i bucket di tabelle gestiti da AWS sono crittografati con crittografia lato server utilizzando chiavi gestite da Amazon S3 (SSE-S3). Dopo aver creato la prima configurazione dei metadati, è possibile modificare l’impostazione di crittografia predefinita per il bucket di tabelle gestito da AWS, in modo da utilizzare la crittografia lato server con chiavi AWS Key Management Service (AWS KMS) (SSE-KMS). Per ulteriori informazioni, consulta Crittografia per i bucket di tabelle gestiti da AWS e Specifica della crittografia lato server con chiavi AWS KMS (SSE-KMS) in bucket di tabelle.

All’interno del bucket di tabelle gestito da AWS, le tabelle dei metadati per la configurazione sono in genere archiviate in un namespace con il seguente formato di denominazione:

b_general-purpose-bucket-name

Nota
  • Se il nome del bucket per uso generico contiene punti, questi vengono convertiti in caratteri di sottolineatura (_) nel nome del namespace.

  • Se il bucket per uso generico è stato creato prima del 1° marzo 2018, il suo nome potrebbe contenere lettere maiuscole e caratteri di sottolineatura, inoltre potrebbe anche essere lungo fino a 255 caratteri. Se il nome del bucket presenta queste caratteristiche, il namespace di tabelle dei metadati avrà un formato diverso. Il nome del bucket per uso generico viene preceduto dab_, troncato a 63 caratteri, convertito in lettere minuscole e contrassegnato con il suffisso hash.

Le tabelle dei metadati hanno il seguente formato di nome della risorsa Amazon (ARN), che include l’ID della tabella dei metadati:

arn:aws:s3tables:region-code:account-id:bucket/aws-s3/table/table-id

Ad esempio, una tabella dei metadati nella Regione Stati Uniti orientali (Virginia settentrionale) avrebbe un ARN simile al seguente:

arn:aws:s3tables:us-east-1:111122223333:bucket/aws-s3/table/a12bc345-67d8-912e-3456-7f89123g4h56

Le tabelle del diario hanno il nome journal e le tabelle di inventario in tempo reale hanno il nome inventory.

Durante la creazione della configurazione della tabella dei metadati, è possibile scegliere di crittografare le tabelle dei metadati gestite da AWS con la crittografia lato server utilizzando le chiavi AWS Key Management Service (AWS KMS) (SSE-KMS). Se scegli di utilizzare SSE-KMS, è necessario fornire una chiave KMS gestita dal cliente nella stessa Regione del bucket per uso generico. È possibile impostare il tipo di crittografia per le tabelle solo durante la creazione della tabella. Dopo aver creato una tabella gestita da AWS, non è possibile modificarne le impostazioni di crittografia. Per specificare SSE-KMS per le tabelle dei metadati, è necessario disporre di determinate autorizzazioni. Per ulteriori informazioni, consulta Autorizzazioni per SSE-KMS.

L’impostazione di crittografia per una tabella dei metadati ha la precedenza sull’impostazione di crittografia predefinita a livello di bucket. Se non specifichi la crittografia, la tabella erediterà l’impostazione di crittografia predefinita del bucket.

I bucket di tabelle gestite da AWS non vengono conteggiati ai fini delle quote di Tabelle S3. Per ulteriori informazioni sull’utilizzo dei bucket di tabelle gestite da AWS e delle tabelle gestite da AWS, consulta Utilizzo dei bucket di tabelle gestite da AWS.

Per monitorare gli aggiornamenti della configurazione della tabella dei metadati, si può usare AWS CloudTrail. Per ulteriori informazioni, consulta Operazioni a livello di bucket Amazon S3 monitorate tramite i log di CloudTrail.

Manutenzione della tabella dei metadati e scadenza dei record

Per far sì che le tabelle di metadati funzionino al meglio, Amazon S3 esegue attività di manutenzione periodica sulle tabelle, come la compattazione e la rimozione dei file non referenziati. Queste attività di manutenzione aiutano a minimizzare i costi di archiviazione delle tabelle di metadati e a ottimizzare le prestazioni delle query. La manutenzione della tabella avviene automaticamente, senza bisogno di opt-in o di una gestione continua da parte dell'utente.

Nota
  • Non è possibile controllare la scadenza degli snapshot della tabella del diario o della tabella di inventario. Per ogni tabella, Amazon S3 archivia almeno 1 snapshot per un massimo di 24 ore.

  • Per ridurre al minimo i costi, puoi configurare la scadenza dei record della tabella del diario. Per impostazione predefinita, i record delle tabelle del diario non scadono e devono essere mantenuti per un minimo di 7 giorni. Per ulteriori informazioni, consulta Scadenza dei record della tabella del diario.