離線儲存 - Amazon SageMaker AI

離線儲存

當不需要低於一秒的擷取時,離線儲存用於歷史資料。它通常用於資料探索、模型訓練和批次推論。

當您為特徵群組啟用線上和離線儲存時,這兩個儲存都會同步,以避免訓練和提供資料之間的差異。請注意,啟用 InMemory 儲存類型的線上儲存特徵群組目前不支援離線儲存中的對應特徵群組 (無線上至離線複寫)。如需有關在 Amazon SageMaker Feature Store 中提供 ML 模型的詳細資訊,請參閱線上儲存

離線儲存包含下列 TableFormat 選項。如需離線儲存內容的相關資訊,請參閱 Amazon SageMaker API 參考中的 OfflineStoreConfig

Glue 資料表格式

Glue 格式 (預設值) 是 AWS Glue 的標準 Hive 類型資料表格式。使用 AWS Glue,您可以從多個來源探索、準備、移動和整合資料。它還包括用於編寫、執行任務和實作業務工作流程的額外生產力和資料操作工具。如需 AWS Glue 的詳細資訊,請參閱什麼是 AWS Glue?

Iceberg 資料表格式

Iceberg 格式 (建議使用) 是開放式的資料表格式,用於非常大型的分析資料表。使用 Iceberg,您可以將小型資料檔案壓縮為分割區中較少的大型檔案,從而大幅加快查詢速度。此壓縮操作是並發的,並且不會影響特徵群組上正在進行的讀取和寫入操作。如需最佳化 Iceberg 資料表的詳細資訊,請參閱 Amazon Athena 和·AWS Lake Formation 使用者指南。

Iceberg 以資料表的形式管理大型檔案集合,並支援現代分析資料湖作業。如果您在建立新特徵群組時選擇 Iceberg 選項,Amazon SageMaker Feature Store 會使用 Parquet 檔案格式建立 Iceberg 資料表,並使用 AWS Glue Data Catalog 註冊資料表。如需有關 Iceberg 資料表格式的詳細資訊,請參閱使用 Apache Iceberg 資料表

重要

請注意,對於使用 Iceberg 表格格式的特徵群組,您必須指定 String 為事件時間的特徵類型。如果指定任何其他類型,則無法成功建立特徵群組。