ベクトルインデックス
注記
Amazon S3 Vectors は Amazon Simple Storage Service のプレビューリリースであり、変更される可能性があります。
注記
ベクトルインデックス設定パラメータを慎重に選択してください。ベクトルインデックスを作成した後、ベクトルインデックス名、ディメンション、距離メトリクス、またはフィルタリング不可能なメタデータキーを更新することはできません。これらの値を変更するには、新しいベクトルインデックスを作成する必要があります。
ベクトルインデックスは、ベクトルデータを保存および整理して効率的な類似度検索オペレーションを行うベクトルバケット内のリソースです。ベクトルインデックスを作成する際は、距離メトリクス (Cosine
または Euclidean
)、ベクトルに含めるディメンションの数、およびオプションで類似度クエリ中にフィルタリングから除外するメタデータフィールドのリストを指定します。
バケットあたりのベクトルインデックス制限、インデックスあたりのベクトル制限、およびベクトルあたりのディメンション制限の詳細については、「制限と制約」を参照してください。
各ベクトルインデックスには、固有の Amazon リソースネーム (ARN) があります。ベクトルインデックスの ARN は次の形式に従います。
arn:aws:s3vectors:
region
:account-id
:bucket/bucket-name
/index/index-name
ベクトルインデックスの命名要件
-
ベクトルインデックス名は、ベクトルバケット内で一意である必要があります。
-
ベクトルインデックス名の長さは 3〜63 文字にする必要があります。
-
有効な文字は、小文字 (a~z)、数字 (0~9)、ハイフン (-)、ドット (.) です。
-
ベクトルインデックス名の最初と最後は、文字または数字にしてください。
ディメンション要件
ディメンションは、ベクトルの値の数です。インデックスに追加されるすべてのベクトルには、この数の値が必要です。
-
ディメンションは 1~4096 の整数である必要があります。
-
より大きなディメンションには、より多くのストレージ領域が必要です。
距離メトリクスオプション
距離メトリクスは、ベクトル間の類似性の計算方法を指定します。ベクトル埋め込みを作成するときは、より正確な結果を得るために、埋め込みモデルの推奨距離メトリクスを選択します。
-
コサイン – ベクトル間の角度のコサインを測定します。正規化されたベクトルや、方向が大きさよりも重要な場合に最適です。
-
ユークリッド – ベクトル間の直線距離を測定します。方向と大きさの両方が重要な場合に最適です。
フィルタリング不可能なメタデータキー
メタデータキーを使用すると、保存および取得中にキーと値のペアとしてベクトルに追加情報をアタッチできます。デフォルトでは、すべてのメタデータをフィルタリングできるため、これを使用してクエリ結果をフィルタリングできます。ただし、フィルタリングに使用しないベクトルで情報を保存する場合は、特定のメタデータキーをフィルタリング不可能として指定できます。
デフォルトのメタデータキーとは異なり、これらのキーをクエリフィルターとして使用することはできません。フィルタリング不可能なメタデータキーは取得できますが、検索、クエリ、またはフィルタリングはできません。インデックスを見つけた後にのみアクセスできます。
フィルタリング不可能なメタデータキーを使用すると、検索結果で取得するがフィルタリングを必要としない追加のコンテキストでベクトルを強化できます。フィルタリング不可能なメタデータキーの一般的な例は、テキストをベクトルに埋め込み、元のテキスト自体をフィルタリング不可能なメタデータとして含める場合です。これにより、フィルタリング可能なメタデータサイズ制限を増やすことなく、ベクトル検索結果とともにソーステキストを返すことができます。その他の例には、作成タイムスタンプ、ソース URL、または純粋に参照用の説明情報の保存などがあります。フィルタリング不可能なメタデータキーは、ベクトルを取得するときにアクセスできますが、デフォルトのメタデータキーとは異なり、これらのキーをクエリフィルターとして使用することはできません。
フィルタリング不可能なメタデータキーの要件は次のとおりです。
-
フィルタリング不可能なメタデータキーは、ベクトルインデックス内で一意である必要があります。
-
フィルタリング不可能なメタデータキーは 1~63 文字の長さである必要があります。
-
ベクトルインデックスの作成後は、フィルタリング不可能なメタデータキーを変更することはできません。
-
S3 Vectors は、インデックスごとに最大 10 個のフィルタリング不可能なメタデータキーをサポートします。