

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 資料來源和擷取
<a name="feature-store-ingest-data"></a>

記錄會透過擷取新增至您的功能群組。根據您所需的使用案例，擷取的記錄可能會保留在功能群組中或不保留。如果您的功能群組使用離線或線上儲存，這取決於儲存區組態。離線存放區用作歷史資料庫，通常用於資料探索、機器學習 (ML) 模型訓練和批次推論。線上儲存用作記錄的即時查閱，通常用於機器學習 (ML) 模型服務。如需特徵商店概念和擷取的更多資訊，請參閱[功能儲存概念](feature-store-concepts.md)。

有多種方式可將您的資料匯入 Amazon SageMaker 功能儲存。Feature Store 提供單一 API 呼叫給稱為 `PutRecord` 的資料擷取，可讓您批次或從串流來源擷取資料。您可以使用 Amazon SageMaker Data Wrangler 來設計功能，然後將您的功能導入您的功能存放區。您也可以使用 Amazon EMR 透過 Spark 連接器進行批次資料擷取。

在以下主題中，我們將討論兩者之間的區別 

**Topics**
+ [串流擷取](#feature-store-ingest-data-stream)
+ [Data Wrangler 與功能存放區](#feature-store-data-wrangler-integration)
+ [使用 Amazon SageMaker 功能儲存 Spark 進行 Batch 擷取](batch-ingestion-spark-connector-setup.md)

## 串流擷取
<a name="feature-store-ingest-data-stream"></a>

您可以使用串流來源 (例如 Kafka 或 Kinesis) 做為資料來源 (從中擷取記錄)，並直接將記錄饋送至線上儲存以進行訓練、推論或建立功能。您可以使用同步 `PutRecord` API 呼叫，將記錄擷取到特徵群組中。由於這是同步 API 呼叫，因此允許在單個 API 呼叫中推送小批量更新。這可讓您在偵測到更新時保持功能值的高新鮮度和發佈值。這些也稱為*串流*功能。

## Data Wrangler 與功能存放區
<a name="feature-store-data-wrangler-integration"></a>

Data Wrangler 是 Studio Classic 的一項功能，它提供了一個端對端的解決方案來匯入、準備、轉換、功能化和分析資料。Data Wrangler 可讓您設計您的功能，並將其導入線上或離線儲存功能群組。

以下指示會匯出 Jupyter 筆記本，其中包含建立 Feature Store 特徵群組所需的所有原始程式碼，可將您的特徵從 Data Wrangler 新增至線上或離線儲存。

將 Data Wrangler 資料流程匯出至主控台上 Feature Store 的指示，取決於您是否已啟用 [Amazon SageMaker Studio](studio-updated.md) 或 [Amazon SageMaker Studio Classic](studio.md) 做為預設體驗。

### 如果 Studio 是您的預設體驗 (主控台)，請將 Data Wrangler 資料流程匯出至 Feature Store
<a name="feature-store-ingest-data-wrangler-integration-with-studio-updated"></a>

1. 遵循 [啟動 Amazon SageMaker Studio](studio-updated-launch.md) 中的指示開啟 Studio 主控台。

1. 從左側面板中選擇**資料**，以展開下拉式清單。

1. 從下拉式清單中，選擇 **Data Wrangler**。

1. 如果您有 Amazon SageMaker Canvas 的執行個體已在執行中，請選擇**開啟 Canvas**。

   如果您沒有執行中的 SageMaker Canvas 執行個體，請選擇**在 Canvas 中執行**。

1. 在 SageMaker Canvas 主控台上，選擇左側導覽窗格中的 **Data Wrangler**。

1. 選擇**資料流程**以檢視您的資料流程。

1. 選擇 **＋** 以展開下拉式清單。

1. 選擇**匯出資料流程**以展開下拉式清單。

1. 選擇**儲存至 SageMaker Feature Store (透過 JupyterLab 筆記本)**。

1. **在將資料流程匯出為筆記本**下，選擇下列其中一個選項：
   + **下載本機複本**，將資料流程下載到本機電腦。
   + **匯出至 S3 位置**，將資料流程下載至 Amazon Simple Storage Service 位置，然後輸入 Amazon S3 位置，或選擇**瀏覽**以尋找您的 Amazon S3 位置。

1. 選擇 **Export** (匯出)。

 建立功能群組後，您也可以跨多個功能群組選取和聯結資料，以在 Data Wrangler 中建立新的工程設計功能，然後將資料集匯出到 Amazon S3 儲存貯體。

如需如何匯出到 Feature Store 的詳細資訊，請參閱[匯出到 SageMaker AI Feature Store](https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-data-export.html#data-wrangler-data-export-feature-store)。