向量索引 - Amazon Simple Storage Service

向量索引

注意

Amazon S3 Vectors 目前為 Amazon Simple Storage Service 的預覽版,可能會有所變更。

注意

請仔細選擇向量索引組態參數。建立向量索引後,便無法更新向量索引名稱、維度、距離指標,或無法篩選的中繼資料索引鍵。若要變更這些值,則必須建立新的向量索引。

向量索引是向量儲存貯體中的資源,其儲存和組織向量資料以用於進行有效率的相似度搜尋作業。您在建立向量索引時,可以指定距離指標 (CosineEuclidean)、向量應有的維度,以及您想要在相似度查詢期間,從篩選條件中排除的中繼資料欄位清單。

如需有關每個儲存貯體的向量索引限制、每個索引的向量限制和每個向量的維度限制的詳細資訊,請參閱 限制

每個向量版本都有唯一的 Amazon Resource Name (ARN)。向量索引的 ARN 遵循下列格式:

arn:aws:s3vectors:region:account-id:bucket/bucket-name/index/index-name

向量索引命名要求

  • 向量索引名稱在向量儲存貯體中必須是唯一的。

  • 向量索引名稱長度必須介於 3 到 63 個字元之間。

  • 有效字元為小寫字母 (a-z)、數字 (0-9)、連字號 (-) 和點 (.)。

  • 向量索引名稱的開頭和結尾必須為字母或數字。

維度要求

維度是向量中值的數目。新增至索引的所有向量,必須完全具有此數量的值。

  • 維度必須是介於 1 到 4096 之間的整數。

  • 較大的維度需要更多的儲存空間。

距離指標選項

距離指標:指定向量之間的相似度計算方式:建立向量嵌入時,請選擇嵌入模型的建議距離指標,以獲得更準確的結果。

  • 餘弦 - 測量向量之間角度的餘弦。標準化向量以及當方向比大小重要時的最佳選擇

  • 歐氏幾何 - 測量向量之間的直線距離。當方向和大小都很重要時的最佳選擇。

不可篩選的中繼資料索引鍵

中繼資料索引鍵可讓您在儲存和擷取期間,以鍵值對的形式將其他資訊連接至向量。根據預設,所有中繼資料都可篩選,因此您可以用它來篩選查詢結果。不過,當您想要將資訊與向量一起儲存,而不用於篩選時,您可以將特定中繼資料索引鍵指定為不可篩選。

不同於預設中繼資料索引鍵,這些金鑰無法用作查詢篩選條件。不可篩選的中繼資料索引鍵可以擷取,但無法搜尋、查詢或篩選。您只能在找到索引後,再進行存取。

不可篩選的中繼資料索引鍵可讓您使用您想要透過搜尋結果進行擷取,但不需要篩選的其他上下文,使向量的內容更加充實。不可篩選中繼資料索引鍵的常見範例是,當您將文字嵌入向量,並且想要將原始文字本身包含為不可篩選的中繼資料時。這可在向量搜索結果中傳回來源文字,而不會增加可篩選的中繼資料大小限制。其他範例包括僅儲存建立時間戳記、來源 URL 或描述性資訊,這些純供參考。擷取向量時可以存取不可篩選的中繼資料索引鍵,但不同於預設中繼資料索引鍵,這些索引鍵不可用作查詢篩選條件。

不可篩選中繼資料索引鍵的要求,如下所示。

  • 不可篩選的中繼資料索引鍵在向量索引中必須是唯一的。

  • 不可篩選的中繼資料索引鍵長度必須介於 1 到 63 個字元。

  • 建立向量索引後,就無法修改不可篩選的中繼資料索引鍵。

  • S3 Vectors 支援每個索引最多 10 個不可篩選的中繼資料索引鍵。

如需不可篩選中繼資料索引鍵的詳細資訊,請參閱 不可篩選的中繼資料