本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 S3 向量和向量儲存貯體
注意
Amazon S3 Vectors 為 Amazon Simple Storage Service 的預覽版本,可能會有所變更。
什麼是 Amazon S3 Vectors?
Amazon S3 Vectors 為您的語意搜尋和 AI 應用程式提供專用、成本最佳化的向量儲存。S3 Vectors 具有 Amazon S3 層級彈性和耐久性,可儲存具有低於一秒查詢效能的向量資料集,非常適合需要建置和增長向量索引的應用程式。 S3 您可以取得一組專用的 API 操作,以儲存、存取和對向量資料執行相似性查詢,而無需佈建任何基礎設施。S3 向量由數個共同運作的關鍵元件組成:
-
向量儲存貯體 – 一種新的儲存貯體類型,專門用於存放和查詢向量。
-
向量索引 – 在向量儲存貯體中,您可以在向量索引中組織向量資料。您可以在向量索引內對向量資料執行相似性查詢。
-
向量 – 您可以將向量存放在向量索引中。對於相似性搜尋和 AI 應用程式,向量會建立為向量內嵌,這是保留內容之間語意關係的數值表示法 (例如文字、影像或音訊),因此類似項目會放在更接近的位置。S3 向量可以根據語意意義執行相似性搜尋,而不是透過比較向量在數學上彼此的接近程度進行精確比對。將向量資料新增至向量索引時,您也可以連接中繼資料,以根據一組條件 (例如時間戳記、類別和使用者偏好設定) 來篩選未來的查詢。
寫入 S3 向量非常一致,這表示您可以立即存取最近新增的資料。隨著時間的推移,當您寫入、更新和刪除向量時,S3 向量會自動最佳化向量資料,以實現向量儲存的最佳可能價格效能,即使資料集擴展和演進也一樣。您可以使用 Amazon S3 的現有存取控制機制來控制向量資料的存取,包括儲存貯體和 IAM 政策。如需每個儲存貯體的向量索引限制和每個索引的向量限制的詳細資訊,請參閱限制。
使用案例:跨大型資料集的相似性搜尋
相似性搜尋可讓您根據其向量表示法來尋找概念上彼此相關的項目,而不是確切的關鍵字相符項目。即使確切的單字或視覺元素不同,這些搜尋也會識別具有類似意義或特性的內容。
使用 S3 向量進行相似性搜尋的常見使用案例包括:
-
醫學影像 - 尋找數百萬醫療影像中的相似性,以協助診斷和治療規劃
-
著作權侵權 - 識別大型媒體庫的潛在衍生內容
-
映像重複資料刪除 - 從大型映像集合偵測並移除重複或近乎重複的映像
-
影片理解 - 搜尋影片資產中的特定場景或內容
-
企業文件搜尋 - 啟用跨企業文件的語意搜尋,根據意義尋找相關資訊
-
個人化 - 透過尋找類似的項目來提供量身打造的建議
如果您想要以一秒的搜尋時間建置經濟實惠的向量搜尋和代理式 AI 應用程式,您應該使用 S3 向量。使用向量儲存貯體時,您只需支付使用量的費用,而且可以節省上傳、儲存和查詢向量內嵌的成本。如需定價的詳細資訊,請參閱 Amazon S3 定價
S3 向量的功能
向量專用儲存
S3 Vectors 是雲端中第一個用於儲存和查詢向量的專用物件儲存體。向量儲存貯體旨在為向量資料提供經濟實惠、彈性且耐用的儲存體。
向量內嵌正在轉換客戶使用和擷取其非結構化資料的方式,包括偵測醫療影像的相似性、在數千小時的影片片段中尋找異常狀況、瀏覽大型程式碼基礎,以及識別特定法律事務最相關的案例法。這些新興應用程式結合內嵌模型,將資料的語意意義 (例如文字、影像、影片、程式碼) 編碼為數值向量內嵌。
在向量儲存貯體中,您可以在向量索引中組織向量資料,而無需佈建基礎設施。當您隨著時間的推移寫入、更新和刪除向量時,S3 向量會自動最佳化向量資料,以實現向量儲存的最佳可能價格效能,即使資料集擴展和演進也一樣。如需每個儲存貯體的向量索引限制和每個索引的向量限制的詳細資訊,請參閱限制。
執行相似性查詢
使用 S3 向量,您可以執行有效率的相似性查詢,尋找與查詢向量最相似的向量,回應時間不到一秒。S3 Vectors 非常適合查詢頻率較低的工作負載。
中繼資料篩選
您可以將中繼資料 (例如年份、作者、類型和位置) 做為索引鍵/值對連接至向量。根據預設,除非您明確將其指定為不可篩選,否則所有中繼資料都是可篩選的。您可以使用可篩選中繼資料,根據特定屬性篩選查詢結果,增強查詢的相關性。向量索引支援中繼資料的字串、數字、布林值和清單類型。如需每個向量中繼資料大小限制和每個向量可篩選中繼資料大小限制的詳細資訊,請參閱 限制。
存取管理與安全性
您可以使用 AWS Organizations 中的 IAM 和服務控制政策來管理向量儲存貯體中資源的存取權。S3 Vectors 使用與 Amazon S3 不同的服務命名空間:s3vectors
命名空間。因此,您可以專門為 S3 Vectors 服務及其資源設計政策。您可以設計政策來授予對個別向量索引、向量儲存貯體內所有向量索引或帳戶中所有向量儲存貯體的存取權。向量儲存貯體一律會啟用所有 Amazon S3 封鎖公開存取設定,且無法停用。
與 AWS 服務整合
S3 Vectors 與其他 AWS 服務整合,以增強您的向量處理功能:
-
Amazon OpenSearch Service
- 最佳化向量儲存成本,同時繼續使用 OpenSearch API 操作。這非常適合需要進階搜尋功能的工作負載,例如混合搜尋、彙總、進階篩選和面向搜尋。您也可以將 S3 向量索引的快照匯出至 Amazon OpenSearch Serverless,以進行高 QPS 和低延遲向量搜尋。 -
Amazon Bedrock 知識庫
- 選取 S3 Vectors 中的向量索引作為向量存放區,以節省擷取擴增產生 (RAG) 應用程式的儲存成本。 -
SageMaker Unified Studio 中的 Amazon Bedrock
- 使用 S3 向量作為向量存放區來開發和測試知識庫。