使用 S3 Vectors 和向量儲存貯體
注意
Amazon S3 Vectors 目前為 Amazon Simple Storage Service 的預覽版,可能會有所變更。
什麼是 Amazon S3 Vectors?
Amazon S3 Vectors 為您的語義搜尋和 AI 應用程式提供專用、成本最佳化的向量儲存。S3 Vectors 具有 Amazon S3 級彈性和耐久性,可儲存具有毫秒級查詢效能的向量資料集,非常適合需要建置和增長向量索引的應用程式。您可以取得一組專用的 API 操作,在向量資料上儲存、存取和執行相似度查詢,無需佈建任何基礎設施。S3 Vectors 包含數個共同運作的關鍵元件:
-
向量儲存貯體 – 這是一種新儲存貯體類型,專門用於儲存和查詢向量。
-
向量索引 – 在向量儲存貯體中,您可以在向量索引中組織向量資料。您可以在向量索引中對向量資料執行相似度查詢。
-
向量 – 您可以將向量儲存在向量索引中。對於相似性搜尋和 AI 應用程式,向量會建立為向量嵌入,這是保留內容之間語義關係的數值表示法 (例如文字、影像或音訊),因此相似項目會放在更接近的位置。S3 Vectors 可以根據語義執行相似性搜尋,而不是從數學角度比較向量之間的接近程度來進行精確比對。將向量資料新增至向量索引時,您也可以根據一組條件 (例如時間戳記、類別和使用者偏好設定) 連接中繼資料,以供未來篩選查詢。
寫入 S3 Vectors 的資料非常一致,這表示您可以立即存取最近新增的資料。當您寫入、更新和刪除向量一段時間後,S3 Vectors 會自動最佳化向量資料,以實現向量儲存的可能最佳性價比,對於資料集擴展和演進也一樣。您可以使用 Amazon S3 的現有存取控制機制來控制對向量資料的存取,包括儲存貯體和 IAM 政策。如需有關每個儲存貯體的向量索引限制,和每個索引的向量限制的詳細資訊,請參閱 限制。
使用案例:跨大型資料集的相似性搜尋
相似性搜尋可讓您根據其向量表示法來尋找概念上彼此相關的項目,而不是與關鍵字完全相符的項目。即使確切的單字或視覺元素不同,這些搜尋也會識別具有相似意義或特性的內容。
使用 S3 Vectors 進行相似性搜尋的常見使用案例包括:
-
醫學影像 - 在數百萬個醫療影像中尋找其相似性,協助診斷和治療規劃
-
著作權侵權 - 在大型媒體庫中識別潛在的衍生內容
-
影像重複資料刪除 - 從大型影像收集中偵測並移除重複或近乎重複的影像
-
影片理解 - 搜尋影片資產中的特定場景或內容
-
企業文件搜尋 - 啟用跨企業文件的語義搜尋,以根據意義尋找相關資訊
-
個人化 - 透過尋找相似的項目來提供量身打造的建議
如果您想要以毫秒級搜尋時間建置經濟實惠的向量搜索和代理式 AI 應用程式,您應該使用 S3 Vectors。使用向量儲存貯體時,您只需支付已使用數量的費用,如此可節省上傳、儲存和查詢向量嵌入的成本。如需定價的詳細資訊,請參閱 Amazon S3 定價
S3 Vectors 的功能
向量專用儲存
S3 Vectors 是雲端中第一個用於儲存和查詢向量的專用物件儲存體。向量儲存貯體旨在為向量資料提供經濟實惠、彈性且耐久的儲存體。
向量嵌入正在轉換客戶使用和擷取其非結構化資料的方式,包括偵測醫療影像的相似性、在數千小時的影片片段中尋找異常狀況、瀏覽大型程式碼基礎,以及識別與特定法律事項最相關的判例法。這些新興應用程式結合嵌入模型,將資料的語義 (例如文字、影像、影片、程式碼) 編碼為數值向量嵌入。
在向量儲存貯體中,您可以在向量索引中組織向量資料,無需佈建基礎設施。當您寫入、更新和刪除向量一段時間後,S3 Vectors 會自動最佳化向量資料,以實現向量儲存的可能最佳性價比,對於資料集擴展和演進也一樣。如需有關每個儲存貯體的向量索引限制,和每個索引的向量限制的詳細資訊,請參閱 限制。
執行相似度查詢
您可以使用 S3 Vectors 執行有效率的相似度查詢,尋找與查詢向量最相似的向量,其回應時間不到一秒。S3 Vectors 非常適用於查詢頻率較低的工作負載。
中繼資料篩選
您可以將中繼資料 (例如年份、作者、類型、位置) 以鍵值對形式連接到您的向量。根據預設,除非您明確指定為不可篩選,否則所有中繼資料都可篩選。您可以使用可篩選的中繼資料,並根據特定屬性篩選查詢結果,增強查詢的相關性。向量索引支援中繼資料的字串、數字、布林值和清單類型。如需有關每個向量中繼資料大小限制,和每個向量可篩選中繼資料大小限制的詳細資訊,請參閱 限制。
存取管理與安全性
您可以使用 AWS Organizations 中的 IAM 和服務控制政策,管理向量儲存貯體的資源存取權。S3 Vectors 使用與 Amazon S3 不同的服務命名空間:s3vectors 命名空間。因此,您可以專門為 S3 Vectors 服務及其資源設計政策。您可以設計政策來授予對個別向量索引、向量儲存貯體中的所有向量索引,或帳戶中所有向量儲存貯體的存取權。向量儲存貯體一律啟用所有 Amazon S3 封鎖公開存取設定,且無法停用。
與 AWS 服務整合
S3 Vectors 與其他 AWS 服務整合,可增強您的向量處理能力:
-
Amazon OpenSearch Service
- 最佳化向量儲存成本,同時可繼續使用 OpenSearch API 操作。這非常適用於需要進階搜尋功能的工作負載,例如混合搜尋、彙總、進階篩選和多面向搜尋。您也可以將 S3 Vectors 索引的快照匯出至 Amazon OpenSearch Serverless,以利於高 QPS 和低延遲向量搜索。 -
Amazon Bedrock 知識庫
- 選取 S3 Vectors 中的向量索引當作向量存放區,以節省檢索增強生成 (RAG) 應用程式的儲存成本。 -
SageMaker Unified Studio 中的 Amazon Bedrock
- 將 S3 Vectors 用作向量存放區來開發和測試知識庫。