Índices vectoriales - Amazon Simple Storage Service

Índices vectoriales

nota

Amazon S3 Vectors se encuentra en versión preliminar para Amazon Simple Storage Service y está sujeto a cambios.

nota

Elija con cuidado los parámetros de configuración del índice vectorial. Después de crear un índice vectorial, no puede actualizar el nombre, la dimensión, la métrica de distancia ni las claves de metadatos no filtrables del índice vectorial. Para cambiar cualquiera de estos valores, debe crear un nuevo índice vectorial.

Los índices vectoriales son recursos en los buckets vectoriales que almacenan y organizan datos vectoriales para realizar operaciones de búsqueda de similitud eficientes. Cuando crea un índice vectorial, especifica la métrica de distancia (Cosine o Euclidean), el número de dimensiones que debe tener un vector y, opcionalmente, una lista de campos de metadatos que desea excluir del filtrado durante las consultas de similitud.

Para obtener más información sobre los límites de índices vectoriales por bucket, los límites vectoriales por índice y los límites de dimensiones por vector, consulte Restricciones y limitaciones.

Cada índice vectorial tiene un nombre de recurso de Amazon (ARN) único. Los ARN de los índices vectoriales se ajustan al formato siguiente:

arn:aws:s3vectors:region:account-id:bucket/bucket-name/index/index-name

Requisitos de nomenclatura de índices vectoriales

  • Los nombres de los índices vectoriales deben ser únicos en el bucket vectorial.

  • Los nombres de los índices vectoriales deben tener entre 3 y 63 caracteres.

  • Los caracteres válidos son letras minúsculas (a-z), números (0-9), guiones (-) y puntos (.).

  • Los nombres de índice vectorial deben comenzar y terminar con una letra o un número.

Requisitos de las dimensiones

Una dimensión es el número de valores de un vector. Todos los vectores agregados al índice deben tener exactamente este número de valores.

  • Una dimensión debe ser un entero entre 1 y 4096.

  • Una dimensión mayor requiere más espacio de almacenamiento.

Opciones de métrica de distancia

La métrica de distancia especifica cómo se calcula la similitud entre vectores. Al crear incrustaciones vectoriales, elija la métrica de distancia recomendada para el modelo de incrustación a fin de obtener resultados más precisos.

  • Coseno: mide el coseno del ángulo entre vectores. Ideal para vectores normalizados y cuando la dirección es más importante que la magnitud.

  • Euclidiano: mide la distancia en línea recta entre vectores. Ideal cuando tanto la dirección como la magnitud son importantes.

Claves de metadatos no filtrables

Las claves de metadatos le permiten asociar información adicional a los vectores como pares clave-valor durante el almacenamiento y la recuperación. De forma predeterminada, todos los metadatos se pueden filtrar, por lo que puede utilizarlos para filtrar los resultados de las consultas. No obstante, puede designar claves de metadatos específicas como no filtrables cuando desee almacenar información con vectores sin utilizarla para filtrar.

A diferencia de las claves de metadatos predeterminadas, estas claves no se pueden utilizar como filtros de consulta. Las claves de metadatos no filtrables se pueden recuperar, pero no se pueden buscar, consultar ni filtrar. Solo puede acceder a ellos después de buscar en el índice.

Las claves de metadatos no filtrables le permiten enriquecer los vectores con contexto adicional que desea recuperar con los resultados de la búsqueda, pero que no necesita para el filtrado. Un ejemplo común de una clave de metadatos no filtrables se presenta cuando se incrusta texto en vectores y se desea incluir el texto original como metadatos no filtrables. Esto le permite devolver el texto de origen junto con los resultados de la búsqueda vectorial sin aumentar los límites de tamaño de los metadatos filtrables. Otros ejemplos incluyen el almacenamiento de marcas temporales de creación, direcciones URL de origen o información descriptiva únicamente para referencia. Se puede acceder a las claves de metadatos no filtrables al recuperar vectores pero, a diferencia de las claves de metadatos predeterminadas, estas claves no se pueden utilizar como filtros de consulta.

Los requisitos para las claves de metadatos no filtrables son los siguientes.

  • Las claves de metadatos no filtrables deben ser únicas en el índice vectorial.

  • Las claves de metadatos no filtrables deben tener entre 1 y 63 caracteres.

  • Las claves de metadatos no filtrables no se pueden modificar después de crear el índice vectorial.

  • S3 Vectors admite hasta diez claves de metadatos no filtrables por índice.