Entdecken Sie Ihre Daten mit S3-Metadata-Tabellen

Amazon S3 Metadata beschleunigt die Datenerkennung, indem Metadaten für Objekte in Ihren Allzweck-Buckets automatisch erfasst und in schreibgeschützten, vollständig verwalteten Apache Iceberg-Tabellen gespeichert werden, die Sie abfragen können. Diese schreibgeschützten Tabellen werden als Metadatentabellen bezeichnet. Wenn Objekte zu Ihren Allzweck-Buckets hinzugefügt, aktualisiert oder aus ihnen entfernt werden, aktualisiert S3 Metadata automatisch die entsprechenden Metadatentabellen, um die neuesten Änderungen zu berücksichtigen.

Standardmäßig bietet S3 Metadata drei Arten von Metadaten:

System-defined Metadaten, wie Erstellungszeit und Speicherklasse eines Objekts
Benutzerdefinierte Objektmetadaten wie Tags, Anmerkungen und benutzerdefinierte Metadaten, die beim Hochladen von Objekten berücksichtigt wurden
Event-Metadaten, z. B. wann ein Objekt aktualisiert oder gelöscht wird und wer AWS-Konto die Anfrage gestellt hat

Mit S3-Metadaten können Sie auf einfache Weise Metadaten für Ihre S3-Objekte finden, speichern und abfragen, sodass Sie Daten schnell für die Verwendung in Geschäftsanalysen, Inhaltsabruf, Modelltraining mit künstlicher Intelligenz und maschinellem Lernen (AI/ML) und mehr vorbereiten können.

Für jeden Allzweck-Bucket können Sie eine Metadatentabellenkonfiguration erstellen, die bis zu drei Metadatentabellen enthält:

Journaltabelle – Standardmäßig enthält Ihre Metadatentabellenkonfiguration eine Journaltabelle, die Ereignisse erfasst, die für die Objekte in Ihrem Bucket auftreten. Eine Journaltabelle zeichnet Änderungen an Ihren Daten nahezu in Echtzeit auf und hilft Ihnen dabei, neue Daten zu identifizieren, die in Ihren Bucket hochgeladen wurden, kürzlich gelöschte Objekte zu verfolgen, Lebenszyklusübergänge zu überwachen und vieles mehr. Die Journaltabelle zeichnet neue Objekte und Aktualisierungen Ihrer Objekte und ihrer Metadaten auf (die Aktualisierungen, für die entweder eine PUT- oder eine DELETE-Operation erforderlich ist).

Der Journal-Tabelle werden nur Metadaten für Änderungsereignisse (wie Uploads, Aktualisierungen und Löschungen) hinzugefügt, die nach dem Erstellen Ihrer Metadatentabellenkonfiguration passieren. Da diese Tabelle abfragbar ist, können Sie die Änderungen an Ihrem Bucket durch einfache SQL-Abfragen überprüfen.

Die Journaltabelle ist für jede Metadatentabellenkonfiguration erforderlich. (In der ersten Version von S3 Metadata wurde die Journaltabelle als „Metadatentabelle“ bezeichnet.)

Weitere Informationen zu den in Journaltabellen gespeicherten Daten finden Sie unter Schema der S3-Metadaten-Journal-Tabellen.

Um die Speicherkosten für Ihre Journaltabelle zu minimieren, können Sie das Ablaufen von Datensätzen in der Journaltabelle aktivieren. Weitere Informationen finden Sie unter Ablauf von Journaltabellen-Datensätzen.
Live-Inventartabelle – Optional können Sie Ihrer Metadatentabellenkonfiguration eine Live-Inventartabelle hinzufügen. Die Live-Inventartabelle bietet eine einfache, abfragbare Bestandsaufnahme aller Objekte und ihrer Versionen in Ihrem Bucket, so dass Sie den aktuellen Status Ihrer Daten ermitteln können.

Sie können die Live-Inventartabelle verwenden, um Geschäftsabläufe und Big-Data-Jobs zu vereinfachen und zu beschleunigen, indem Sie Objekte identifizieren, die Sie für verschiedene Workloads verarbeiten möchten. Sie können beispielsweise die Live-Inventartabelle abfragen, um alle Objekte zu finden, die in einer bestimmten Speicherklasse gespeichert sind, alle Objekte mit bestimmten Tags, alle Objekte, die nicht mit serverseitiger Verschlüsselung mit AWS Key Management Service (AWS KMS) -Schlüsseln (SSE-KMS) verschlüsselt sind, und mehr.

Wenn Sie die Live-Inventartabelle für Ihre Metadatentabellenkonfiguration aktivieren, durchläuft die Tabelle einen Prozess, der als Backfilling bezeichnet wird. Dabei scannt Amazon S3 Ihren Allzweck-Bucket, um die ursprünglichen Metadaten für alle Objekte abzurufen, die in dem Bucket vorhanden sind. Je nach Anzahl der Objekte in Ihrem Bucket kann dieser Vorgang einige (mindestens 15) Minuten bis einige Stunden dauern. Wenn der Backfilling-Vorgang abgeschlossen ist, ändert sich der Status Ihrer Live-Inventartabelle von Backfilling zu Aktiv. Nachdem das Backfilling abgeschlossen ist, werden Aktualisierungen Ihrer Objekte in der Regel innerhalb einer Stunde in der Live-Inventartabelle wiedergegeben.

Hinweis: Das Backfilling Ihrer Live-Inventartabelle wird Ihnen in Rechnung gestellt. Wenn Ihr Allzweck-Bucket mehr als eine Milliarde Objekte enthält, wird Ihnen auch eine monatliche Gebühr für Ihre Live-Inventartabelle berechnet. Weitere Informationen finden Sie unter Amazon S3 – Preise.

Weitere Informationen dazu, welche Daten in Live-Bestandstabellen gespeichert werden, finden Sie unter Schema der S3-Metadaten-Live-Inventartabellen.
Annotationstabelle — Optional können Sie Ihrer Metadatentabellenkonfiguration eine Annotationstabelle hinzufügen. Die Annotationstabelle verfolgt die neuesten Anmerkungen zu den Objekten in Ihrem Bucket und macht den Inhalt der Anmerkungen direkt abfragbar. Jede Zeile steht für eine Anmerkung zu einer bestimmten Objektversion.

Sie können die Annotationstabelle verwenden, um Objekte anhand von Annotationswerten zu finden und abzurufen. Sie können beispielsweise die Annotationstabelle abfragen, um alle Objekte mit einem bestimmten Annotationsschlüssel zu finden, Kommentarinhalte abzurufen, die einem Prädikat auf der Grundlage der Objektgröße oder des key prefix entsprechen, oder Anmerkungen objektübergreifend korrelieren.

Weitere Informationen zur Konfiguration der Annotationstabelle finden Sie unter. Annotationstabellen aktivieren oder deaktivieren Weitere Hinweise zum Schema der Annotationstabelle finden Sie unterSchema der Tabelle mit Anmerkungen zu S3-Metadaten.

Ihre Metadatentabellen werden in einem AWS verwalteten S3-Tabellen-Bucket gespeichert, der Speicherplatz bietet, der für Tabellendaten optimiert ist. Um Ihre Metadaten abzufragen, können Sie Ihren Tabellen-Bucket in Amazon SageMaker Lakehouse integrieren. Diese Integration, die das AWS Glue Data Catalog und verwendet AWS Lake Formation, ermöglicht es AWS Analysediensten, Ihre Tabellendaten automatisch zu erkennen und darauf zuzugreifen.

Nachdem Ihr Table-Bucket in den integriert wurde AWS Glue Data Catalog, können Sie Ihre Metadatentabellen mit AWS Analysediensten wie Amazon Athena, Amazon EMR und Amazon Redshift direkt abfragen. Mit Amazon Quick können Sie auch interaktive Dashboards mit Ihren Abfragedaten erstellen. Weitere Informationen zur Integration Ihres AWS verwalteten S3-Tabellen-Buckets mit Amazon SageMaker Lakehouse finden Sie unterIntegration von Amazon S3 S3-Tabellen mit AWS Analysedienste.

Sie können Ihre Metadatentabellen auch mit Apache SparkApache Trino, und jeder anderen Anwendung abfragen, die das Apache Iceberg Format unterstützt, indem Sie den AWS Glue Iceberg REST-Endpunkt, den Iceberg REST-Endpunkt Amazon S3 Tables oder den Amazon S3 Tables Catalog for Apache Iceberg Client Catalog verwenden. Weitere Informationen zum Zugriff auf Ihre Metadatentabellen finden Sie unter Zugreifen auf Tabellendaten.

Die Preise für S3 Metadata finden Sie unter Amazon S3 – Preise.

Funktionsweise von Metadatentabellen

Metadatentabellen werden von Amazon S3 verwaltet und können von keinem IAM-Prinzipal außerhalb von Amazon S3 geändert werden. Sie können Ihre Metadatentabellen jedoch löschen. Daher sind die Metadaten-Tabellen schreibgeschützt, was dazu beiträgt, dass sie den Inhalt Ihres Allzweck-Buckets korrekt wiedergeben.

Um Objektmetadaten in AWS verwalteten Metadatentabellen zu generieren und zu speichern, erstellen Sie eine Metadatentabellenkonfiguration für Ihren Allzweck-Bucket. Amazon S3 ist so konzipiert, dass die Metadatentabellen kontinuierlich aktualisiert werden, um die neuesten Änderungen an Ihren Daten widerzuspiegeln, solange die Konfiguration für den Allzweck-Bucket aktiv ist.

Bevor Sie eine Metadatentabellenkonfiguration erstellen, stellen Sie sicher, dass Sie über die erforderlichen AWS Identity and Access Management (IAM)-Berechtigungen zum Erstellen und Verwalten von Metadatentabellen verfügen. Weitere Informationen finden Sie unter Einrichten von Berechtigungen für die Konfiguration von Metadatentabellen.

Speicherung, Organisation und Verschlüsselung von Metadatentabellen

Wenn Sie Ihre Metadatentabellenkonfiguration erstellen, werden Ihre Metadatentabellen in einem AWS -verwalteten Tabellen-Bucket gespeichert. Alle Metadatentabellenkonfigurationen in Ihrem Konto und in derselben Region werden in einem einzigen AWS verwalteten Tabellen-Bucket gespeichert. Diese AWS verwalteten Tabellen-Buckets sind benannt aws-s3 und haben das folgende ARN-Format (Amazon Resource Name):

arn:aws:s3tables:region:account_id:bucket/aws-s3

Wenn Ihre Konto-ID beispielsweise 123456789012 lautet und sich Ihr Allzweck-Bucket in USA Ost (Nord-Virginia) (us-east-1) befindet, wird Ihr AWS verwalteter Tabellen-Bucket auch in USA Ost (Nord-Virginia) (us-east-1) erstellt und hat den folgenden ARN:

arn:aws:s3tables:us-east-1:123456789012:bucket/aws-s3

Standardmäßig werden AWS verwaltete Tabellen-Buckets mit serverseitiger Verschlüsselung unter Verwendung von verwalteten Amazon S3 S3-Schlüsseln () SSE-S3 verschlüsselt. Nachdem Sie Ihre erste Metadatenkonfiguration erstellt haben, können Sie die Standardverschlüsselungseinstellung für den AWS verwalteten Tabellen-Bucket so festlegen, dass serverseitige Verschlüsselung mit AWS Key Management Service (AWS KMS) -Schlüsseln () verwendet wird. SSE-KMS Weitere Informationen finden Sie unter Verschlüsselung für AWS verwaltete Tabellen-Buckets und. Geben Sie die serverseitige Verschlüsselung an mit AWS KMS keys (SSE-KMS) in Tabellen-Buckets

In Ihrem AWS verwalteten Tabellen-Bucket werden die Metadatentabellen für Ihre Konfiguration normalerweise in einem Namespace mit dem folgenden Benennungsformat gespeichert:

b_general-purpose-bucket-name

Anmerkung

Wenn der Name Ihres Allzweck-Buckets Punkte enthält, werden die Punkte im Namespace-Namen in Unterstriche (_) umgewandelt.
Wenn Ihr Allzweck-Bucket vor dem 1. März 2018 erstellt wurde, kann sein Name Großbuchstaben und Unterstriche enthalten und er kann bis zu 255 Zeichen lang sein. Wenn der Name Ihres Buckets diese Merkmale aufweist, hat der Namespace Ihrer Metadatentabelle ein anderes Format. Dem Bucketnamen für allgemeine Zwecke wird ein b_-Präfix vorangestellt, auf 63 Zeichen gekürzt, in Kleinbuchstaben umgewandelt und mit einem Hash als Suffix versehen.

Metadatentabellen haben das folgende Format für Amazon-Ressourcennamen (ARN), das die Tabellen-ID der Metadatentabelle enthält:

arn:aws:s3tables:region-code:account-id:bucket/aws-s3/table/table-id

Eine Metadatentabelle in der Region USA Ost (Nord-Virginia) hätte zum Beispiel einen ARN wie den folgenden:

arn:aws:s3tables:us-east-1:111122223333:bucket/aws-s3/table/a12bc345-67d8-912e-3456-7f89123g4h56

Journaltabellen haben den Namen journal und Live-Inventartabellen haben den Namen inventory.

Wenn Sie Ihre Metadatentabellenkonfiguration erstellen, können Sie wählen, ob Sie Ihre AWS verwalteten Metadatentabellen mit serverseitiger Verschlüsselung mithilfe von AWS Key Management Service (AWS KMS) keys () verschlüsseln möchten. SSE-KMS Wenn Sie sich für die Verwendung entscheiden SSE-KMS, müssen Sie einen vom Kunden verwalteten KMS-Schlüssel in derselben Region angeben, in der sich Ihr Allzweck-Bucket befindet. Sie können die Verschlüsselungsart für Ihre Metadatentabellen nur bei der Tabellenerstellung festlegen. Nachdem eine AWS -verwaltete Tabelle erstellt wurde, können Sie ihre Verschlüsselungseinstellung nicht mehr ändern. Um Tabellen SSE-KMS für Ihre Metadaten angeben zu können, müssen Sie über bestimmte Berechtigungen verfügen. Weitere Informationen finden Sie unter Berechtigungen für SSE-KMS.

Die Verschlüsselungseinstellung für eine Metadatentabelle hat Vorrang vor der standardmäßigen Verschlüsselungseinstellung auf Bucket-Ebene. Wenn Sie keine Verschlüsselung für eine Metadatentabelle angeben, übernimmt sie die Standardverschlüsselungseinstellung von dem Bucket.

AWS verwaltete Tabellen-Buckets werden nicht auf Ihre S3-Tabellen-Kontingente angerechnet. Weitere Informationen zum Arbeiten mit AWS verwalteten Tabellen-Buckets und AWS verwalteten Tabellen finden Sie unter Arbeiten mit AWS verwalteten Tabellen-Buckets.

Um Aktualisierungen Ihrer Metadatentabellenkonfiguration zu überwachen, können Sie AWS CloudTrail verwenden. Weitere Informationen finden Sie unter Amazon S3 S3-Aktionen auf Bucket-Ebene, die durch Protokollierung verfolgt werden CloudTrail.

Pflege von Metadatentabellen und Ablauf von Datensätzen

Damit Ihre -Metadatentabellen stets optimal funktionieren, führt Amazon S3 regelmäßige Wartungsaktivitäten an Ihren Tabellen durch, z. B. Komprimierung und Entfernung nicht referenzierter Dateien. Diese Wartungsaktivitäten tragen dazu bei, sowohl die Kosten für das Speichern Ihrer Metadatentabellen zu minimieren als auch die Abfrageleistung zu optimieren. Diese Tabellenverwaltung erfolgt automatisch und erfordert weder Ihre Zustimmung noch eine laufende Verwaltung durch Sie.

Anmerkung

Sie können den Ablauf von Snapshots von Journaltabellen oder Inventartabellen nicht kontrollieren. Für jede Tabelle speichert Amazon S3 mindestens einen Snapshot für maximal 24 Stunden.
Um Ihre Kosten zu minimieren, können Sie den Ablauf von Journaltabellendatensätzen konfigurieren. Standardmäßig laufen Journaltabelleneinträge nicht ab, und Journaltabelleneinträge müssen mindestens 7 Tage aufbewahrt werden. Weitere Informationen finden Sie unter Ablauf von Journaltabellen-Datensätzen.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Objektmetadaten bearbeiten

Begrenzungen und Einschränkungen