Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Datenformat des Amazon SageMaker Feature Store-Offline-Speichers
Amazon SageMaker Feature Store unterstützt die Tabellenformate AWS Glue und Apache Iceberg für den Offline-Store. Sie können das Tabellenformat wählen, wenn Sie eine neue Feature-Gruppe erstellen. AWS Glue ist das Standardformat.
Die Offline-Shop-Daten von Amazon SageMaker Feature Store werden in einem Amazon S3 S3-Bucket in Ihrem Konto gespeichert. Wenn Sie PutRecord anrufen, werden Ihre Daten innerhalb von 15 Minuten gepuffert, gebündelt und in Amazon S3 geschrieben. Feature Store unterstützt nur das Parquet-Dateiformat, wenn Sie Ihre Daten in Ihren Offline-Speicher schreiben. Insbesondere wenn Ihre Daten in Ihren Offline-Speicher geschrieben werden, können die Daten im Parquet-Format aus Ihrem Amazon-S3-Bucket abgerufen werden. Jede Datei kann mehrere Records enthalten.
Für das Iceberg-Format speichert Feature Store die Metadaten der Tabelle in demselben Amazon-S3-Bucket, den Sie zum Speichern der Offline-Speicherdaten verwenden. Sie finden es unter dem metadata Präfix.
Feature Store macht auch die OfflineStoreConfigStorageConfigS.3 verfügbar. ResolvedOutputDas Feld S3Uri, das Sie im API-Aufruf finden können. DescribeFeatureGroup Dies ist der S3-Pfad, unter dem die Dateien für die jeweilige Feature-Gruppe geschrieben werden.
Die folgenden zusätzlichen Felder werden von Feature Store zu jedem Datensatz hinzugefügt, wenn sie im Offline-Speicher gespeichert werden:
-
api_invocation_time – Der Zeitstempel, zu dem der Dienst den
PutRecordoderDeleteRecordAufruf empfängt. Bei Verwendung von verwalteter Datenerfassung (z. B. Data Wrangler) ist dies der Zeitstempel, zu dem Daten in den Offline-Speicher geschrieben wurden. -
write_time – Der Zeitstempel, zu dem Daten in den Offline-Speicher geschrieben wurden. Kann für die Erstellung von Abfragen im Zusammenhang mit Zeitreisen verwendet werden.
-
is_deleted –
Falsestandardmäßig. WennDeleteRecordaufgerufen wird, wird eine neue DateiRecordin denRecordIdentifierValueOffline-Speicher eingefügt und dort aufTruegesetzt.
URI-Strukturen des Amazon SageMaker Feature Store-Offline-Speichers
In den folgenden Beispielen amzn-s3-demo-bucket ist der Amazon-S3-Bucket in Ihrem Konto, ist Ihr Beispielpräfix, example-prefix ist Ihre Konto-ID, 111122223333 ist Ihre Region, AWS-Region ist der Name Ihrer Feature-Gruppe. feature-group-name
AWS Glue Tabellenformat
Datensätze im Offline-Speicher, die im AWS Glue Tabellenformat gespeichert wurden, werden nach Ereigniszeit in stündliche Partitionen unterteilt. Sie können das Partitionierungsschema nicht konfigurieren. Die folgende URI-Struktur zeigt die Organisation einer Parquet-Datei unter Verwendung des folgenden AWS Glue Formats:
s3://amzn-s3-demo-bucket/example-prefix/111122223333/sagemaker/AWS-Region/offline-store/feature-group-name-feature-group-creation-time/data/year=year/month=month/day=day/hour=hour/timestamp_of_latest_event_time_in_file_16-random-alphanumeric-digits.parquet
Das folgende Beispiel ist der Ausgabespeicherort einer Parquet-Datei für eine Datei mit als feature-group-namecustomer-purchase-history-patterns:
s3://amzn-s3-demo-bucket/example-prefix/111122223333/sagemaker/AWS-Region/offline-store/customer-purchase-history-patterns-1593511200/data/year=2020/month=06/day=31/hour=00/20200631T064401Z_108934320012Az11.parquet
Eisberg-Tabellenformat
Datensätze im Offline-Speicher, die im Eisberg-Tabellenformat gespeichert sind, werden nach Ereigniszeit in tägliche Partitionen unterteilt. Sie können das Partitionierungsschema nicht konfigurieren. Die folgende URI-Struktur zeigt die Organisation der Datendateien, die im Eisberg-Tabellenformat gespeichert sind:
s3://amzn-s3-demo-bucket/example-prefix/111122223333/sagemaker/AWS-Region/offline-store/feature-group-name-feature-group-creation-time/data/8-random-alphanumeric-digits/event-time-feature-name_trunc=event-time-year-event-time-month-event-time-day/timestamp-of-latest-event-time-in-file_16-random-alphanumeric-digits.parquet
Das folgende Beispiel ist der Ausgabespeicherort einer Parquet-Datei für eine Datei mit als feature-group-namecustomer-purchase-history-patterns, und der ist event-time-feature-nameEventTime:
s3://amzn-s3-demo-bucket/example-prefix/111122223333/sagemaker/AWS-Region/offline-store/customer-purchase-history-patterns-1593511200/data/0aec19ca/EventTime_trunc=2022-11-09/20221109T215231Z_yolTtpyuWbkaeGIl.parquet
Das folgende Beispiel zeigt den Speicherort einer Metadatendatei für Datendateien, die im Eisberg-Tabellenformat gespeichert sind.
s3://amzn-s3-demo-bucket/example-prefix/111122223333/sagemaker/AWS-Region/offline-store/feature-group-name-feature-group-creation-time/metadata/