Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Amazon SageMaker Feature Store format data toko offline
Amazon SageMaker Feature Store mendukung format tabel Apache Iceberg AWS Glue dan Apache untuk toko offline. Anda dapat memilih format tabel saat membuat grup fitur baru. AWS Glue adalah format default.
Data toko offline Amazon SageMaker Feature Store disimpan dalam bucket Amazon S3 di dalam akun Anda. Saat Anda meneleponPutRecord
, data Anda di-buffer, di-batch, dan ditulis ke Amazon S3 dalam waktu 15 menit. Feature Store hanya mendukung format file Parket saat menulis data Anda ke toko offline Anda. Khususnya, ketika data Anda ditulis ke toko offline Anda, data dapat diambil dari bucket Amazon S3 Anda dalam format Parket. Setiap file dapat berisi beberapa Record
s.
Untuk format Iceberg, Feature Store menyimpan metadata tabel dalam bucket Amazon S3 yang sama yang Anda gunakan untuk menyimpan data toko offline. Anda dapat menemukannya di bawah metadata
awalan.
Feature Store juga mengekspos OfflineStoreConfig.S3. StorageConfig ResolvedOutputBidang S3Uri, yang dapat ditemukan dari dalam panggilan DescribeFeatureGroupAPI. Ini adalah jalur S3 di mana file untuk grup fitur tertentu ditulis.
Bidang tambahan berikut ditambahkan oleh Feature Store ke setiap rekaman saat disimpan di toko offline:
-
api_invocation_time — Stempel waktu saat layanan menerima panggilan atau.
PutRecord
DeleteRecord
Jika menggunakan konsumsi terkelola (misalnya Data Wrangler), ini adalah stempel waktu saat data ditulis ke toko offline. -
write_time — Stempel waktu ketika data ditulis ke toko offline. Dapat digunakan untuk membangun kueri terkait perjalanan waktu.
-
is_deleted — secara
False
default. JikaDeleteRecord
dipanggil, yang baruRecord
dimasukkan ke dalamRecordIdentifierValue
dan diatur keTrue
dalam toko offline.
Amazon SageMaker Feature Store struktur URI toko offline
Dalam contoh berikut amzn-s3-demo-bucket
adalah bucket Amazon S3 dalam akun Anda,
adalah awalan contoh Anda, example-prefix
adalah ID akun Anda, 111122223333
adalah wilayah Anda, Wilayah AWS
adalah nama grup fitur Anda. feature-group-name
AWS Glue format tabel
Catatan di toko offline yang disimpan menggunakan format AWS Glue tabel dipartisi berdasarkan waktu acara menjadi partisi per jam. Anda tidak dapat mengonfigurasi skema partisi. Struktur URI berikut menunjukkan organisasi file Parket menggunakan AWS Glue format:
s3://amzn-s3-demo-bucket/
example-prefix
/111122223333
/sagemaker/Wilayah AWS
/offline-store/feature-group-name
-feature-group-creation-time
/data/year=year
/month=month
/day=day
/hour=hour
/timestamp_of_latest_event_time_in_file
_16-random-alphanumeric-digits
.parquet
Contoh berikut adalah lokasi output dari file Parket untuk file dengan
asfeature-group-name
customer-purchase-history-patterns
:
s3://amzn-s3-demo-bucket/
example-prefix
/111122223333
/sagemaker/Wilayah AWS
/offline-store/customer-purchase-history-patterns-1593511200/data/year=2020/month=06/day=31/hour=00/20200631T064401Z_108934320012Az11.parquet
Format tabel gunung es
Catatan di toko offline yang disimpan dalam format tabel Iceberg dipartisi berdasarkan waktu acara menjadi partisi harian. Anda tidak dapat mengonfigurasi skema partisi. Struktur URI berikut menunjukkan organisasi file data yang disimpan dalam format tabel Iceberg:
s3://amzn-s3-demo-bucket/
example-prefix
/111122223333
/sagemaker/Wilayah AWS
/offline-store/feature-group-name
-feature-group-creation-time
/data/8-random-alphanumeric-digits
/event-time-feature-name
_trunc=event-time-year
-event-time-month
-event-time-day
/timestamp-of-latest-event-time-in-file_16-random-alphanumeric-digits.parquet
Contoh berikut adalah lokasi output dari file Parket untuk file dengan
asfeature-group-name
customer-purchase-history-patterns
, dan
adalahevent-time-feature-name
EventTime
:
s3://amzn-s3-demo-bucket/
example-prefix
/111122223333
/sagemaker/Wilayah AWS
/offline-store/customer-purchase-history-patterns-1593511200/data/0aec19ca/EventTime_trunc=2022-11-09/20221109T215231Z_yolTtpyuWbkaeGIl.parquet
Contoh berikut adalah lokasi file metadata untuk file data yang disimpan dalam format tabel Iceberg.
s3://amzn-s3-demo-bucket/
example-prefix
/111122223333
/sagemaker/Wilayah AWS
/offline-store/feature-group-name
-feature-group-creation-time
/metadata/