Beschleunigen der Datenerkennung mit S3 Metadata - Amazon Simple Storage Service

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Beschleunigen der Datenerkennung mit S3 Metadata

Amazon S3 Metadata beschleunigt die Datenerkennung, indem Metadaten für Objekte in Ihren Allzweck-Buckets automatisch erfasst und in schreibgeschützten, vollständig verwalteten Apache Iceberg Tabellen gespeichert werden, die Sie abfragen können. Diese schreibgeschützten Tabellen werden als Metadatentabellen bezeichnet. Wenn Objekte zu Ihren Allzweck-Buckets hinzugefügt, aktualisiert oder daraus entfernt werden, aktualisiert oder entfernt, aktualisiert S3 Metadata automatisch die entsprechenden Metadatentabellen, um die neuesten Änderungen widerzuspiegeln.

Standardmäßig bietet S3 Metadata drei Arten von Metadaten:

  • Systemdefinierte Metadaten, wie z. B. die Erstellungszeit und die Speicherklasse eines Objekts

  • Benutzerdefinierte Metadaten wie Tags und benutzerdefinierte Metadaten, die beim Hochladen von Objekten aufgenommen wurden

  • Event-Metadaten, z. B. wann ein Objekt aktualisiert oder gelöscht wird und wer AWS-Konto die Anfrage gestellt hat

Mit S3 Metadata können Sie auf einfache Weise Metadaten für Ihre S3-Objekte finden, speichern und abfragen, sodass Sie Daten schnell für die Verwendung in Geschäftsanalysen, Inhaltsabruf, Modelltraining mit künstlicher Intelligenz und Machine Learning (KI/ML) und mehr vorbereiten können.

Für jeden Allzweck-Bucket können Sie eine Metadatentabellenkonfiguration erstellen, die zwei sich ergänzende Metadatentabellen enthält:

  • Journaltabelle — Standardmäßig enthält Ihre Metadatentabellenkonfiguration eine Journaltabelle, in der Ereignisse erfasst werden, die für die Objekte in Ihrem Bucket auftreten. In der Journaltabelle werden Änderungen an Ihren Daten nahezu in Echtzeit aufgezeichnet. So können Sie neue Daten identifizieren, die in Ihren Bucket hochgeladen wurden, kürzlich gelöschte Objekte verfolgen, Lebenszyklusübergänge überwachen und vieles mehr. In der Journaltabelle werden neue Objekte und Aktualisierungen Ihrer Objekte und ihrer Metadaten aufgezeichnet (Aktualisierungen, die entweder eine Operation PUT oder eine DELETE Operation erfordern).

    In der Journaltabelle werden Metadaten nur für Änderungsereignisse (wie Uploads, Aktualisierungen und Löschungen) erfasst, die nach der Erstellung Ihrer Metadatentabellenkonfiguration auftreten. Da diese Tabelle abfragbar ist, können Sie die Änderungen an Ihrem Bucket mithilfe einfacher SQL-Abfragen überprüfen.

    Die Journaltabelle ist für jede Metadatentabellenkonfiguration erforderlich. (In der ersten Version von S3 Metadata wurde die Journaltabelle als „Metadatentabelle“ bezeichnet.)

    Weitere Informationen darüber, welche Daten in Journaltabellen gespeichert sind, finden Sie unterSchema der Journaltabellen in S3, Metadaten.

    Um Ihre Speicherkosten zu minimieren, können Sie den Ablauf von Journaltabellendatensätzen aktivieren. Weitere Informationen finden Sie unter Ablaufende Journaltabellendatensätze.

  • Live-Inventartabelle — Optional können Sie Ihrer Metadatentabellenkonfiguration eine Live-Inventartabelle hinzufügen. Die Live-Inventartabelle bietet eine einfache, abfragbare Bestandsaufnahme aller Objekte und ihrer Versionen in Ihrem Bucket, sodass Sie den aktuellen Status Ihrer Daten ermitteln können.

    Mithilfe der Live-Inventartabelle können Sie Geschäftsabläufe und Big-Data-Jobs vereinfachen und beschleunigen, indem Sie Objekte identifizieren, die Sie für verschiedene Workloads verarbeiten möchten. Sie können beispielsweise die Live-Inventartabelle abfragen, um alle Objekte zu finden, die in einer bestimmten Speicherklasse gespeichert sind, alle Objekte mit bestimmten Tags, alle Objekte, die nicht mit serverseitiger Verschlüsselung mit () -Schlüsseln AWS Key Management Service (SSE-KMS AWS KMS) verschlüsselt sind, und mehr.

    Wenn Sie die Live-Inventartabelle für Ihre Metadatentabellenkonfiguration aktivieren, durchläuft die Tabelle einen Prozess, der als Backfilling bezeichnet wird. Dabei scannt Amazon S3 Ihren Allzweck-Bucket, um die ersten Metadaten für alle Objekte abzurufen, die im Bucket vorhanden sind. Abhängig von der Anzahl der Objekte in Ihrem Bucket kann dieser Vorgang Minuten (mindestens 15 Minuten) bis Stunden dauern. Wenn der Auffüllvorgang abgeschlossen ist, ändert sich der Status Ihrer Live-Inventartabelle von „Auffüllen“ zu „Aktiv“. Nach Abschluss der Auffüllung werden Aktualisierungen Ihrer Objekte in der Regel innerhalb einer Stunde in der Live-Inventartabelle wiedergegeben.

    Das Auffüllen Ihrer Inventartabelle wird Ihnen in Rechnung gestellt. Wenn Ihr Allzweck-Bucket mehr als eine Milliarde Objekte enthält, wird Ihnen außerdem eine monatliche Gebühr für Ihre Live-Inventartabelle berechnet. Weitere Informationen finden Sie unter Amazon S3 – Preise.

    Weitere Informationen darüber, welche Daten in Live-Inventartabellen gespeichert sind, finden Sie unterSchema der Live-Inventartabellen für S3-Metadaten.

Ihre Metadatentabellen werden in einem AWS verwalteten S3-Tabellen-Bucket gespeichert, der Speicherplatz bietet, der für tabellarische Daten optimiert ist. Um Ihre Metadaten abzufragen, können Sie Ihren Tabellen-Bucket in Amazon SageMaker Lakehouse integrieren. Diese Integration, die das AWS Glue Data Catalog und verwendet AWS Lake Formation, ermöglicht es AWS Analysediensten, Ihre Tabellendaten automatisch zu erkennen und darauf zuzugreifen.

Nachdem Ihr Table-Bucket in den integriert wurde AWS Glue Data Catalog, können Sie Ihre Metadatentabellen mit AWS Analysediensten wie Amazon Athena, Amazon EMR und Amazon Redshift direkt abfragen. Mithilfe von Amazon QuickSight können Sie auch interaktive Dashboards mit Ihren Abfragedaten erstellen. Weitere Informationen zur Integration Ihres AWS verwalteten S3-Tabellen-Buckets mit Amazon SageMaker Lakehouse finden Sie unterVerwenden von Amazon S3 S3-Tabellen mit AWS Analysediensten.

Sie können Ihre Metadatentabellen auch mit Apache SparkApache Trino, und jeder anderen Anwendung abfragen, die das Apache Iceberg Format unterstützt, indem Sie den AWS Glue Iceberg REST-Endpunkt, den Iceberg REST-Endpunkt Amazon S3 Tables oder den Amazon S3 Tables Catalog for Apache Iceberg Client Catalog verwenden. Weitere Informationen zum Zugriff auf Ihre Metadatentabellen finden Sie unterZugreifen auf Tabellendaten.

Die Preise für S3 Metadata finden Sie unter Amazon S3 – Preise.

Funktionsweise von Metadatentabellen

Metadatentabellen werden von Amazon S3 verwaltet und können von keinem IAM-Prinzipal außerhalb von Amazon S3 geändert werden. Sie können Ihre Metadatentabellen jedoch löschen. Aus diesem Grund sind Metadatentabellen schreibgeschützt, wodurch sichergestellt wird, dass sie den Inhalt Ihres Allzweck-Buckets korrekt wiedergeben.

Um Objektmetadaten in AWS verwalteten Metadatentabellen zu generieren und zu speichern, erstellen Sie eine Metadatentabellenkonfiguration für Ihren Allzweck-Bucket. Amazon S3 wurde so konzipiert, dass die Metadatentabellen kontinuierlich aktualisiert werden, um die neuesten Änderungen an Ihren Daten widerzuspiegeln, solange die Konfiguration im Allzweck-Bucket aktiv ist.

Bevor Sie eine Metadatentabellenkonfiguration erstellen, stellen Sie sicher, dass Sie über die erforderlichen AWS Identity and Access Management (IAM-) Berechtigungen zum Erstellen und Verwalten von Metadatentabellen verfügen. Weitere Informationen finden Sie unter Einrichten von Berechtigungen für die Konfiguration von Metadatentabellen.

Speicherung, Organisation und Verschlüsselung von Metadatentabellen

Wenn Sie Ihre Metadatentabellenkonfiguration erstellen, werden Ihre Metadatentabellen in einem AWS verwalteten Tabellen-Bucket gespeichert. Alle Metadatentabellenkonfigurationen in Ihrem Konto und in derselben Region werden in einem einzigen AWS verwalteten Tabellen-Bucket gespeichert. Diese AWS verwalteten Tabellen-Buckets sind benannt aws-s3 und haben das folgende ARN-Format (Amazon Resource Name):

arn:aws:s3tables:region:account_id:bucket/aws-s3

Wenn Ihre Konto-ID beispielsweise 123456789012 lautet und sich Ihr Allzweck-Bucket in USA Ost (Nord-Virginia) (us-east-1) befindet, wird Ihr AWS verwalteter Tabellen-Bucket auch in USA Ost (Nord-Virginia) (us-east-1) erstellt und hat den folgenden ARN:

arn:aws:s3tables:us-east-1:123456789012:bucket/aws-s3

Standardmäßig werden AWS verwaltete Tabellen-Buckets mit serverseitiger Verschlüsselung unter Verwendung von Amazon S3 S3-verwalteten Schlüsseln (SSE-S3) verschlüsselt. Nachdem Sie Ihre erste Metadatenkonfiguration erstellt haben, können Sie die Standardverschlüsselungseinstellung für den AWS verwalteten Tabellen-Bucket so festlegen, dass serverseitige Verschlüsselung mit AWS Key Management Service (AWS KMS) -Schlüsseln (SSE-KMS) verwendet wird. Weitere Informationen finden Sie unter Verschlüsselung für AWS verwaltete Tabellen-Buckets und. Angabe der serverseitigen Verschlüsselung mit AWS KMS Schlüsseln (SSE-KMS) in Tabellen-Buckets

In Ihrem AWS verwalteten Tabellen-Bucket werden die Metadatentabellen für Ihre Konfiguration normalerweise in einem Namespace mit dem folgenden Benennungsformat gespeichert:

b_general-purpose-bucket-name

Anmerkung
  • Wenn Ihr Allzweck-Bucket-Name Punkte enthält, werden die Punkte im Namespace-Namen in Unterstriche (_) umgewandelt.

  • Wenn Ihr Allzweck-Bucket vor dem 1. März 2018 erstellt wurde, kann sein Name Großbuchstaben und Unterstriche enthalten und außerdem bis zu 255 Zeichen lang sein. Wenn Ihr Bucket-Name diese Merkmale aufweist, hat Ihr Metadatentabellen-Namespace ein anderes Format. Dem Bucketnamen für allgemeine Zwecke wird ein Präfix vorangestelltb_, auf 63 Zeichen gekürzt, in Kleinbuchstaben umgewandelt und mit einem Hash als Suffix versehen.

Metadatentabellen haben das folgende Format für Amazon-Ressourcennamen (ARN):

arn:aws:s3tables:region-code:account-id:bucket/aws-s3/table/metadata_table_name

Journaltabellen haben den Namen journal und Live-Inventartabellen haben den Namen. inventory

Wenn Sie Ihre Metadatentabellenkonfiguration erstellen, können Sie wählen, ob Sie Ihre AWS verwalteten Metadatentabellen mit serverseitiger Verschlüsselung mithilfe von AWS Key Management Service (AWS KMS) -Schlüsseln (SSE-KMS) verschlüsseln möchten. Wenn Sie SSE-KMS verwenden möchten, müssen Sie einen vom Kunden verwalteten KMS-Schlüssel in derselben Region wie Ihr Allzweck-Bucket angeben. Sie können den Verschlüsselungstyp für Ihre Tabellen nur während der Tabellenerstellung festlegen. Nachdem eine AWS verwaltete Tabelle erstellt wurde, können Sie ihre Verschlüsselungseinstellung nicht mehr ändern. Um SSE-KMS für Ihre Metadatentabellen anzugeben, benötigen Sie bestimmte Berechtigungen. Weitere Informationen finden Sie unter Berechtigungen für SSE-KMS.

Die Verschlüsselungseinstellung für eine Metadatentabelle hat Vorrang vor der Standardverschlüsselungseinstellung auf Bucket-Ebene. Wenn Sie keine Verschlüsselung für eine Tabelle angeben, erbt diese die Standardverschlüsselungseinstellung aus dem Bucket.

AWS verwaltete Tabellen-Buckets werden nicht auf Ihre S3-Tabellen-Kontingente angerechnet. Weitere Informationen zum Arbeiten mit AWS verwalteten Tabellen-Buckets und AWS verwalteten Tabellen finden Sie unter Arbeiten mit AWS verwalteten Tabellen-Buckets.

Um Aktualisierungen Ihrer Metadatentabellenkonfiguration zu überwachen, können Sie AWS CloudTrail verwenden. Weitere Informationen finden Sie unter Amazon S3 S3-Aktionen auf Bucket-Ebene, die durch Protokollierung verfolgt werden CloudTrail .

Verwaltung von Metadatentabellen und Ablauf von Datensätzen

Damit Ihre -Metadatentabellen stets optimal funktionieren, führt Amazon S3 regelmäßige Wartungsaktivitäten an Ihren Tabellen durch, z. B. Komprimierung und Entfernung nicht referenzierter Dateien. Diese Wartungsaktivitäten tragen dazu bei, sowohl die Kosten für das Speichern Ihrer Metadatentabellen zu minimieren als auch die Abfrageleistung zu optimieren. Diese Tabellenverwaltung erfolgt automatisch und erfordert weder Ihre Zustimmung noch eine laufende Verwaltung durch Sie.

Anmerkung
  • Sie können den Ablauf von Snapshots von Journaltabellen oder Inventartabellen nicht kontrollieren. Für jede Tabelle speichert Amazon S3 mindestens einen Snapshot für maximal 24 Stunden.

  • Um Ihre Kosten zu minimieren, können Sie den Ablauf von Journaltabellendatensätzen konfigurieren. Standardmäßig laufen Journaltabelleneinträge nicht ab, und Journaltabelleneinträge müssen mindestens 7 Tage aufbewahrt werden. Weitere Informationen finden Sie unter Ablaufende Journaltabellendatensätze.