使用 S3 Vectors 和向量儲存貯體 - Amazon Simple Storage Service

使用 S3 Vectors 和向量儲存貯體

注意

Amazon S3 Vectors 目前為 Amazon Simple Storage Service 的預覽版,可能會有所變更。

什麼是 Amazon S3 Vectors?

Amazon S3 Vectors 為您的語義搜尋和 AI 應用程式提供專用、成本最佳化的向量儲存。S3 Vectors 具有 Amazon S3 級彈性和耐久性,可儲存具有毫秒級查詢效能的向量資料集,非常適合需要建置和增長向量索引的應用程式。您可以取得一組專用的 API 操作,在向量資料上儲存、存取和執行相似度查詢,無需佈建任何基礎設施。S3 Vectors 包含數個共同運作的關鍵元件:

  • 向量儲存貯體 – 這是一種新儲存貯體類型,專門用於儲存和查詢向量。

  • 向量索引 – 在向量儲存貯體中,您可以在向量索引中組織向量資料。您可以在向量索引中對向量資料執行相似度查詢。

  • 向量 – 您可以將向量儲存在向量索引中。對於相似性搜尋和 AI 應用程式,向量會建立為向量嵌入,這是保留內容之間語義關係的數值表示法 (例如文字、影像或音訊),因此相似項目會放在更接近的位置。S3 Vectors 可以根據語義執行相似性搜尋,而不是從數學角度比較向量之間的接近程度來進行精確比對。將向量資料新增至向量索引時,您也可以根據一組條件 (例如時間戳記、類別和使用者偏好設定) 連接中繼資料,以供未來篩選查詢。

寫入 S3 Vectors 的資料非常一致,這表示您可以立即存取最近新增的資料。當您寫入、更新和刪除向量一段時間後,S3 Vectors 會自動最佳化向量資料,以實現向量儲存的可能最佳性價比,對於資料集擴展和演進也一樣。您可以使用 Amazon S3 的現有存取控制機制來控制對向量資料的存取,包括儲存貯體和 IAM 政策。如需有關每個儲存貯體的向量索引限制,和每個索引的向量限制的詳細資訊,請參閱 限制

使用案例:跨大型資料集的相似性搜尋

相似性搜尋可讓您根據其向量表示法來尋找概念上彼此相關的項目,而不是與關鍵字完全相符的項目。即使確切的單字或視覺元素不同,這些搜尋也會識別具有相似意義或特性的內容。

使用 S3 Vectors 進行相似性搜尋的常見使用案例包括:

  • 醫學影像 - 在數百萬個醫療影像中尋找其相似性,協助診斷和治療規劃

  • 著作權侵權 - 在大型媒體庫中識別潛在的衍生內容

  • 影像重複資料刪除 - 從大型影像收集中偵測並移除重複或近乎重複的影像

  • 影片理解 - 搜尋影片資產中的特定場景或內容

  • 企業文件搜尋 - 啟用跨企業文件的語義搜尋,以根據意義尋找相關資訊

  • 個人化 - 透過尋找相似的項目來提供量身打造的建議

如果您想要以毫秒級搜尋時間建置經濟實惠的向量搜索和代理式 AI 應用程式,您應該使用 S3 Vectors。使用向量儲存貯體時,您只需支付已使用數量的費用,如此可節省上傳、儲存和查詢向量嵌入的成本。如需定價的詳細資訊,請參閱 Amazon S3 定價

S3 Vectors 的功能

向量專用儲存

S3 Vectors 是雲端中第一個用於儲存和查詢向量的專用物件儲存體。向量儲存貯體旨在為向量資料提供經濟實惠、彈性且耐久的儲存體。

向量嵌入正在轉換客戶使用和擷取其非結構化資料的方式,包括偵測醫療影像的相似性、在數千小時的影片片段中尋找異常狀況、瀏覽大型程式碼基礎,以及識別與特定法律事項最相關的判例法。這些新興應用程式結合嵌入模型,將資料的語義 (例如文字、影像、影片、程式碼) 編碼為數值向量嵌入。

在向量儲存貯體中,您可以在向量索引中組織向量資料,無需佈建基礎設施。當您寫入、更新和刪除向量一段時間後,S3 Vectors 會自動最佳化向量資料,以實現向量儲存的可能最佳性價比,對於資料集擴展和演進也一樣。如需有關每個儲存貯體的向量索引限制,和每個索引的向量限制的詳細資訊,請參閱 限制

執行相似度查詢

您可以使用 S3 Vectors 執行有效率的相似度查詢,尋找與查詢向量最相似的向量,其回應時間不到一秒。S3 Vectors 非常適用於查詢頻率較低的工作負載。

中繼資料篩選

您可以將中繼資料 (例如年份、作者、類型、位置) 以鍵值對形式連接到您的向量。根據預設,除非您明確指定為不可篩選,否則所有中繼資料都可篩選。您可以使用可篩選的中繼資料,並根據特定屬性篩選查詢結果,增強查詢的相關性。向量索引支援中繼資料的字串、數字、布林值和清單類型。如需有關每個向量中繼資料大小限制,和每個向量可篩選中繼資料大小限制的詳細資訊,請參閱 限制

存取管理與安全性

您可以使用 AWS Organizations 中的 IAM 和服務控制政策,管理向量儲存貯體的資源存取權。S3 Vectors 使用與 Amazon S3 不同的服務命名空間:s3vectors 命名空間。因此,您可以專門為 S3 Vectors 服務及其資源設計政策。您可以設計政策來授予對個別向量索引、向量儲存貯體中的所有向量索引,或帳戶中所有向量儲存貯體的存取權。向量儲存貯體一律啟用所有 Amazon S3 封鎖公開存取設定,且無法停用。

與 AWS 服務整合

S3 Vectors 與其他 AWS 服務整合,可增強您的向量處理能力:

  • Amazon OpenSearch Service - 最佳化向量儲存成本,同時可繼續使用 OpenSearch API 操作。這非常適用於需要進階搜尋功能的工作負載,例如混合搜尋、彙總、進階篩選和多面向搜尋。您也可以將 S3 Vectors 索引的快照匯出至 Amazon OpenSearch Serverless,以利於高 QPS 和低延遲向量搜索。

  • Amazon Bedrock 知識庫 - 選取 S3 Vectors 中的向量索引當作向量存放區,以節省檢索增強生成 (RAG) 應用程式的儲存成本。

  • SageMaker Unified Studio 中的 Amazon Bedrock - 將 S3 Vectors 用作向量存放區來開發和測試知識庫。