向量擷取 - Amazon OpenSearch Service

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

向量擷取

向量擷取可協助您快速擷取和索引 OpenSearch 網域和 OpenSearch Serverless 集合。此服務會檢查您的網域或集合,並代表您建立擷取管道,以將您的資料載入 OpenSearch。您的網域或集合的擷取和索引是由 Vector 擷取為您管理。

您可以透過啟用 和 自動最佳化功能來加速向量索引的 GPU 加速和最佳化索引程序。使用向量擷取,您不需要管理基礎基礎設施、修補程式軟體或擴展叢集,以支援向量資料庫索引和擷取。這可讓您快速建置向量資料庫,以符合您的需求。

運作方式

向量擷取會檢查您的網域或集合及其索引。您可以手動設定向量索引欄位,或允許 OpenSearch 使用自動組態。

向量擷取使用 OpenSearch Ingestion (OSI) 作為 Amazon S3 和 OpenSearch 之間的資料管道。服務會平行處理向量,以最佳化擷取速度,同時遵守 OSI 和 OpenSearch 的擴展限制。

OpenSearch Vector 擷取定價

在任何特定時間,您只需支付配置給管道的向量擷取 OCUs 數量,無論是否有資料流經管道。OpenSearch 向量擷取會根據用量向上或向下擴展管道容量,立即容納您的工作負載。

如需完整定價詳細資訊,請參閱 Amazon OpenSearch Service 定價

先決條件

使用向量擷取之前,請確定您有下列資源:

  • Amazon S3 儲存貯體,其中包含 parquet 格式的 OpenSearch JSON 文件

  • OpenSearch 資源 - 網域或集合

  • OpenSearch 版本 2.19 或更新版本 (自動最佳化整合時需要)

建立向量資料庫

使用向量擷取任務建立工作流程來設定自動向量索引調校,並加速大規模索引建置。

注意

隨著使用者介面定案,本節中的程序內容可能會有所變更。工作流程可能會在未來的版本中更新,以反映最新的主控台體驗。

建立向量注入任務
  1. 向量擷取任務詳細資訊區段中,針對名稱輸入擷取任務的名稱。

  2. 資料來源區段中,設定下列項目:

    1. 針對 Amazon S3 URI,輸入包含 OpenSearch Service JSON 文件的 Amazon S3 儲存貯體位置。

    2. 選擇瀏覽 Amazon S3 從可用的儲存貯體中選取,或選擇檢視以預覽儲存貯體內容。

    3. 針對內容類型,選取下列其中一項:

      • 向量 - 文件已包含向量,不需要進一步產生向量內嵌。

      • 文字、影像或音訊 - 文件包含需要編碼為向量內嵌的內容,例如文字、影像或音訊位元組。

  3. 資料來源許可區段中,設定存取許可:

    1. 針對 IAM 角色,選擇下列其中一項:

      • Create a new role (建立新角色)

      • 使用現有角色

    2. 針對 IAM 角色名稱,輸入角色的名稱。

  4. 目的地區段中,設定 OpenSearch Service 端點:

    1. 針對端點,選擇從目前區域中的相容網域或集合中選擇選項

    2. 選擇下一步以繼續選取的端點。

  5. 選擇下一步以繼續下一個步驟,或選擇取消以退出而不儲存。

向量擷取可與下列 Amazon OpenSearch Service 功能搭配使用,以最佳化向量資料庫效能:

向量索引的 GPU 加速

GPU 加速可減少建立、更新和刪除向量索引所需的時間。與向量擷取搭配使用時,您可以大幅加速大規模向量資料庫的擷取和索引程序。

自動最佳化

自動最佳化會自動探索搜尋延遲、品質和記憶體需求之間的最佳權衡。向量擷取可以在擷取過程中套用自動最佳化建議,以確保您的向量索引已進行最佳設定。

為了獲得最佳結果,請考慮在使用向量擷取建置大規模向量資料庫時啟用 GPU 加速和自動最佳化。