Accelerazione della scoperta dei dati con S3 Metadata - Amazon Simple Storage Service

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Accelerazione della scoperta dei dati con S3 Metadata

Amazon S3 Metadata accelera l'individuazione dei dati acquisendo automaticamente i metadati per gli oggetti nei bucket generici e archiviandoli in tabelle di sola lettura e completamente gestite su cui è possibile eseguire query. Apache Iceberg Queste tabelle di sola lettura sono chiamate tabelle di metadati. Man mano che gli oggetti vengono aggiunti, aggiornati o rimossi dai bucket generici, S3 Metadata aggiorna automaticamente le tabelle di metadati corrispondenti per riflettere le ultime modifiche.

Per impostazione predefinita, S3 Metadata fornisce tre tipi di metadati:

  • I metadati definiti dal sistema, come l'ora di creazione dell'oggetto e la classe di storage

  • Metadati personalizzati, come tag e metadati definiti dall'utente, inclusi durante il caricamento degli oggetti

  • Metadati degli eventi, ad esempio quando un oggetto viene aggiornato o eliminato, e chi ha effettuato la richiesta Account AWS

Con S3 Metadata, è possibile trovare, memorizzare e interrogare facilmente i metadati per gli oggetti S3 in modo da preparare rapidamente i dati per l'utilizzo nelle analisi aziendali, nel recupero dei contenuti, nell'addestramento di modelli di intelligenza artificiale e machine learning (AI/ML) e altro ancora.

Per ogni bucket generico, puoi creare una configurazione di tabella di metadati che contenga due tabelle di metadati complementari:

  • Tabella del diario: per impostazione predefinita, la configurazione della tabella dei metadati contiene una tabella journal, che acquisisce gli eventi che si verificano per gli oggetti nel bucket. La tabella del diario registra le modifiche apportate ai dati quasi in tempo reale, aiutandoti a identificare i nuovi dati caricati nel bucket, tenere traccia degli oggetti eliminati di recente, monitorare le transizioni del ciclo di vita e altro ancora. La tabella journal registra nuovi oggetti e aggiornamenti ai tuoi oggetti e ai relativi metadati (quegli aggiornamenti che richiedono un'operazione o un'PUToperazione). DELETE

    La tabella journal acquisisce i metadati solo per gli eventi di modifica (come caricamenti, aggiornamenti ed eliminazioni) che si verificano dopo la creazione della configurazione della tabella dei metadati. Poiché questa tabella è interrogabile, puoi controllare le modifiche al tuo bucket tramite semplici query SQL.

    La tabella journal è necessaria per ogni configurazione della tabella di metadati. (Nella versione iniziale di S3 Metadata, la tabella journal veniva chiamata «la tabella dei metadati».)

    Per ulteriori informazioni sui dati archiviati nelle tabelle del journal, consulta. Schema delle tabelle del journal S3 Metadata

    Per ridurre al minimo i costi di archiviazione, puoi scegliere di abilitare la scadenza dei record della tabella del diario. Per ulteriori informazioni, consulta Record delle tabelle del diario in scadenza.

  • Tabella dell'inventario in tempo reale: facoltativamente, puoi aggiungere una tabella di inventario in tempo reale alla configurazione della tabella dei metadati. La tabella dell'inventario live fornisce un inventario semplice e consultabile di tutti gli oggetti e delle relative versioni presenti nel bucket, in modo da poter determinare lo stato più recente dei dati.

    È possibile utilizzare la tabella di inventario in tempo reale per semplificare e velocizzare i flussi di lavoro aziendali e i job basati sui Big Data identificando gli oggetti che si desidera elaborare per vari carichi di lavoro. Ad esempio, è possibile interrogare la tabella dell'inventario live per trovare tutti gli oggetti archiviati in una particolare classe di archiviazione, tutti gli oggetti con determinati tag, tutti gli oggetti che non sono crittografati con la crittografia lato server utilizzando le chiavi AWS Key Management Service (AWS KMS) (SSE-KMS) e altro ancora.

    Quando abiliti la tabella di inventario in tempo reale per la configurazione della tabella di metadati, la tabella viene sottoposta a un processo noto come backfilling, durante il quale Amazon S3 esegue la scansione del bucket generico per recuperare i metadati iniziali per tutti gli oggetti presenti nel bucket. A seconda del numero di oggetti nel bucket, questo processo può richiedere da minuti (minimo 15 minuti) a ore. Al termine del processo di riempimento, lo stato della tabella dell'inventario in tempo reale passa da Backfilling a Active. Una volta completato il riempimento, gli aggiornamenti agli oggetti si riflettono in genere nella tabella dell'inventario in tempo reale entro un'ora.

    Ti viene addebitato un costo per il riempimento della tabella dell'inventario. Se il tuo bucket per uso generico contiene più di un miliardo di oggetti, ti viene inoltre addebitata una tariffa mensile per la tabella dell'inventario in tempo reale. Per ulteriori informazioni, consulta Prezzi di Amazon S3.

    Per ulteriori informazioni sui dati archiviati nelle tabelle di inventario in tempo reale, consultaSchema delle tabelle di inventario in tempo reale di S3 Metadata.

Le tabelle dei metadati sono archiviate in un bucket di tabelle S3 AWS gestito, che fornisce uno storage ottimizzato per i dati tabulari. Per interrogare i tuoi metadati, puoi integrare il tuo table bucket con Amazon SageMaker Lakehouse. Questa integrazione, che utilizza AWS Glue Data Catalog and AWS Lake Formation, consente ai servizi di AWS analisi di scoprire e accedere automaticamente ai dati delle tabelle.

Una volta integrato il table bucket con AWS Glue Data Catalog, puoi interrogare direttamente le tabelle di metadati con servizi di AWS analisi come Amazon Athena, Amazon EMR e Amazon Redshift. Puoi anche creare dashboard interattive con i dati delle tue query utilizzando Amazon QuickSight. Per ulteriori informazioni sull'integrazione del tuo table bucket S3 AWS gestito con Amazon SageMaker Lakehouse, consulta. Integrazione delle tabelle AWS Amazon S3 con i servizi di analisi

Puoi anche interrogare le tue tabelle di metadati con Apache Spark e qualsiasi altra applicazione che supporti il Apache Iceberg formato utilizzando l'endpoint REST, l'endpoint AWS Glue Iceberg REST di Amazon S3 Tables o l'Amazon S3 Iceberg Tables Catalog per il catalogo dei clienti. Apache Trino Apache Iceberg Per ulteriori informazioni sull'accesso alle tabelle di metadati, consulta. Accesso ai dati delle tabelle

Per i prezzi di S3 Metadata, consulta Prezzi di Amazon S3.

Come funzionano le tabelle di metadati

Le tabelle dei metadati sono gestite da Amazon S3 e non possono essere modificate da alcun principale IAM al di fuori di Amazon S3 stesso Tuttavia, puoi eliminare le tabelle di metadati. Di conseguenza, le tabelle di metadati sono di sola lettura, il che aiuta a garantire che riflettano correttamente il contenuto del bucket generico.

Per generare e archiviare i metadati degli oggetti in tabelle di metadati AWS gestite, crei una configurazione della tabella di metadati per il tuo bucket generico. Amazon S3 è progettato per aggiornare continuamente le tabelle dei metadati per riflettere le ultime modifiche ai dati, purché la configurazione sia attiva nel bucket generico.

Prima di creare una configurazione di tabelle di metadati, assicurati di disporre delle autorizzazioni AWS Identity and Access Management (IAM) necessarie per creare e gestire tabelle di metadati. Per ulteriori informazioni, consulta Impostazione delle autorizzazioni per la configurazione delle tabelle di metadati.

Archiviazione, organizzazione e crittografia delle tabelle di metadati

Quando crei la configurazione della tabella di metadati, le tabelle di metadati vengono archiviate in un bucket di tabelle AWS gestito. Tutte le configurazioni della tabella di metadati nel tuo account e nella stessa regione sono archiviate in un unico bucket di tabelle gestito. AWS Questi bucket di tabelle AWS gestiti sono denominati aws-s3 e hanno il seguente formato Amazon Resource Name (ARN):

arn:aws:s3tables:region:account_id:bucket/aws-s3

Ad esempio, se l'ID dell'account è 123456789012 e il bucket generico si trova negli Stati Uniti orientali (Virginia settentrionale) (us-east-1), il bucket da tavolo AWS gestito viene creato anche negli Stati Uniti orientali (Virginia settentrionale) () e ha il seguente ARN: us-east-1

arn:aws:s3tables:us-east-1:123456789012:bucket/aws-s3

Per impostazione predefinita, i bucket di tabella AWS gestiti sono crittografati con crittografia lato server utilizzando chiavi gestite di Amazon S3 (SSE-S3). Dopo aver creato la prima configurazione di metadati, puoi impostare l'impostazione di crittografia predefinita per il bucket table AWS gestito in modo che utilizzi la crittografia lato server con chiavi () (SSE-KMS). AWS Key Management Service AWS KMSPer ulteriori informazioni, consulta Encryption for managed table bucket e. AWS Specificazione della crittografia lato server con AWS KMS chiavi (SSE-KMS) nei bucket da tabella

All'interno del bucket di tabelle AWS gestite, le tabelle di metadati per la configurazione sono in genere archiviate in uno spazio dei nomi con il seguente formato di denominazione:

b_general-purpose-bucket-name

Nota
  • Se il nome del bucket per uso generico contiene dei punti, questi vengono convertiti in caratteri di sottolineatura () nel nome dello spazio dei nomi. _

  • Se il tuo bucket generico è stato creato prima del 1° marzo 2018, il suo nome potrebbe contenere lettere maiuscole e caratteri di sottolineatura e potrebbe anche contenere fino a 255 caratteri. Se il nome del bucket presenta queste caratteristiche, lo spazio dei nomi della tabella dei metadati avrà un formato diverso. Il nome del bucket generico verrà preceduto dab_, troncato a 63 caratteri, convertito in lettere minuscole e contrassegnato da un hash.

Le tabelle di metadati hanno il seguente formato di nome della risorsa Amazon (ARN):

arn:aws:s3tables:region-code:account-id:bucket/aws-s3/table/metadata_table_name

Le tabelle del diario hanno il nome e le tabelle di inventario attivo hanno il nome. journal inventory

Quando crei la configurazione della tabella dei metadati, puoi scegliere di crittografare le tabelle di metadati AWS gestite con la crittografia lato server utilizzando le chiavi AWS Key Management Service (AWS KMS) (SSE-KMS). Se scegli di utilizzare SSE-KMS, devi fornire una chiave KMS gestita dal cliente nella stessa regione del bucket generico. È possibile impostare il tipo di crittografia per le tabelle solo durante la creazione della tabella. Dopo aver creato una tabella AWS gestita, non è possibile modificarne l'impostazione di crittografia. Per specificare SSE-KMS per le tabelle di metadati, devi disporre di determinate autorizzazioni. Per ulteriori informazioni, consulta Autorizzazioni per SSE-KMS.

L'impostazione di crittografia per una tabella di metadati ha la precedenza sull'impostazione di crittografia predefinita a livello di bucket. Se non specifichi la crittografia per una tabella, questa erediterà l'impostazione di crittografia predefinita dal bucket.

AWS i bucket di tabella gestiti non vengono conteggiati ai fini delle quote di S3 Tables. Per ulteriori informazioni sull'utilizzo dei bucket di tabella AWS gestiti e delle tabelle gestite, consulta Lavorare con AWS i bucket di tabella AWS gestiti.

Per monitorare gli aggiornamenti della configurazione della tabella dei metadati, si può usare AWS CloudTrail. Per ulteriori informazioni, consulta Azioni a livello di bucket di Amazon S3 tracciate mediante registrazione CloudTrail .

Manutenzione della tabella dei metadati e scadenza dei record

Per far sì che le tabelle di metadati funzionino al meglio, Amazon S3 esegue attività di manutenzione periodica sulle tabelle, come la compattazione e la rimozione dei file non referenziati. Queste attività di manutenzione aiutano a minimizzare i costi di archiviazione delle tabelle di metadati e a ottimizzare le prestazioni delle query. La manutenzione della tabella avviene automaticamente, senza bisogno di opt-in o di una gestione continua da parte dell'utente.

Nota
  • Non è possibile controllare la scadenza delle istantanee della tabella del diario o della tabella di inventario. Per ogni tabella, Amazon S3 memorizza almeno 1 snapshot per un massimo di 24 ore.

  • Per ridurre al minimo i costi, puoi configurare la scadenza dei record della tabella del diario. Per impostazione predefinita, i record delle tabelle del diario non scadono e i record delle tabelle del diario devono essere conservati per un minimo di 7 giorni. Per ulteriori informazioni, consulta Record delle tabelle del diario in scadenza.