向量索引 - Amazon Simple Storage Service

向量索引

注意

适用于 Amazon Simple Storage Service 的 Amazon S3 Vectors 为预览版,可能会发生变化。

注意

请仔细选择向量索引配置参数。创建向量索引后,无法更新向量索引名称、维度、距离指标或不可筛选的元数据键。要更改其中任何值,必须创建新的向量索引。

向量索引是向量存储桶中的资源,用于存储和组织向量数据,以实现高效的相似性搜索操作。创建向量索引时,可以指定距离指标(CosineEuclidean)、向量应具有的维度数,以及(可选)要在相似性查询期间从筛选中排除的元数据字段的列表。

有关每个存储桶的向量索引限制、每个索引的向量限制和每个向量的维度限制的更多信息,请参阅限制和局限性

每个向量索引都具有唯一的 Amazon 资源名称(ARN)。向量索引的 ARN 遵循以下格式:

arn:aws:s3vectors:region:account-id:bucket/bucket-name/index/index-name

向量索引命名要求

  • 向量索引名称在向量存储桶内必须是唯一的。

  • 向量索引名称的长度必须介于 3 到 63 个字符之间。

  • 有效字符为小写字母(a-z)、数字(0-9)、连字符(-)和点(.)。

  • 向量索引名称必须以字母或数字开头和结尾。

维度要求

维度是向量中值的数量。添加到索引的所有向量都必须正好具有这个数量的值。

  • 维度必须是 1 和 4096 之间的整数。

  • 维度越大,需要的存储空间就越多。

距离指标选项

距离指标指定如何计算向量间的相似性。创建向量嵌入时,请选择嵌入模型的建议距离指标以获得更准确的结果。

  • 余弦:测量向量之间角度的余弦值。最适合归一化向量以及方向比幅度更重要时。

  • 欧几里得:测量向量之间的直线距离。当方向和幅度都很重要时最适合。

不可筛选的元数据键

元数据键支持您在存储和检索期间将其它信息作为键值对附加到向量。默认情况下,所有元数据都是可筛选的,因此可以使用它来筛选查询结果。但是,如果要使用向量来存储信息而不将其用于筛选,则可以将特定的元数据键指定为不可筛选。

与默认元数据键不同,这些键不能用作查询筛选条件。可以检索但无法搜索、查询或筛选不可筛选的元数据键。只有在找到索引后才能访问它。

不可筛选的元数据键支持您使用想要在搜索结果中检索、但不需要进行筛选的附加上下文来丰富向量。不可筛选的元数据键的一个常见示例是,当您将文本嵌入到向量中并希望将原始文本本身作为不可筛选的元数据包含在内时。这样,就可以在不增加可筛选元数据大小限制的情况下,将源文本与向量搜索结果一起返回。其它示例包括存储创建时间戳、源 URL 或纯粹供参考的描述性信息。检索向量时可以访问不可筛选的元数据键,但是与默认的元数据键不同,这些键不能用作查询筛选条件。

不可筛选的元数据键的要求如下。

  • 不可筛选的元数据键在向量索引中必须是唯一的。

  • 不可筛选的元数据键的长度必须为 1 到 63 个字符。

  • 创建向量索引后,无法修改不可筛选的元数据键。

  • S3 Vectors 支持每个索引最多 10 个不可筛选的元数据键。