Índices de vetores
nota
O Amazon S3 Vectors está na versão prévia para o Amazon Simple Storage Service e está sujeito a alterações.
nota
Escolha cuidadosamente os parâmetros de configuração do índice de vetores. Após a criação de um índice de vetores, não é possível atualizar o respectivo nome, dimensão, métrica de distância ou chaves de metadados não filtráveis. Para alterar qualquer um desses valores, você deve criar outro índice de vetores.
Índice de vetores são recursos dentro de buckets de vetores que armazenam e organizam os dados vetoriais para possibilitar operações eficientes de pesquisa por similaridade. Ao criar um índice de vetores, você especifica a métrica de distância (Cosine
ou Euclidean
), o número de dimensões que um vetor deve ter e, opcionalmente, uma lista de campos de metadados que você deseja excluir da filtragem durante consultas de similaridade.
Para ter mais informações sobre limites de índice de vetores por bucket, limites de vetores por índice e limites de dimensão por vetor, consulte Limitações e restrições.
Cada índice de vetores tem um nome de recurso da Amazon (ARN) exclusivo. O ARN dos índices de vetores segue o seguinte formato:
arn:aws:s3vectors:
region
:account-id
:bucket/bucket-name
/index/index-name
Requisitos de nomenclatura de índices de vetores
-
O nome dos índices de vetores deve ser exclusivo dentro do bucket de vetores.
-
Os nomes de índice de vetores devem ter entre 3 e 63 caracteres.
-
Os caracteres válidos são letras minúsculas (a-z), números (0-9), hifens (-) e pontos (.).
-
Os nomes de índice de vetores devem começar e terminar com uma letra ou um número.
Requisitos de dimensão
Dimensão é o número de valores em um vetor. Todos os vetores adicionados ao índice devem ter exatamente esse número de valores.
-
Uma dimensão deve ser um número inteiro entre 1 e 4.096.
-
Uma dimensão maior requer maior espaço de armazenamento.
Opções de métrica de distância
A métrica de distância especifica como a similaridade entre vetores é calculada. Ao criar incorporações de vetores, escolha a métrica de distância recomendada do seu modelo de incorporação para obter resultados mais precisos.
-
Cosseno: mede o cosseno do ângulo entre os vetores. Ideal para vetores normalizados e quando a direção é mais importante do que a magnitude.
-
Euclidiano: mede a distância em linha reta entre os vetores. Ideal quando a direção e a magnitude são importantes.
Chaves de metadados não filtráveis
As chaves de metadados permitem que você anexe informações adicionais aos vetores como pares de chave-valor durante o armazenamento e a recuperação. Por padrão, todos os metadados são filtráveis, então você pode usá-los para filtrar os resultados da consulta. No entanto, você pode designar chaves de metadados específicas como não filtráveis quando quiser armazenar informações com vetores sem usá-las para filtragem.
Diferentemente das chaves de metadados padrão, essas chaves não podem ser usadas como filtros de consulta. As chaves de metadados não filtráveis podem ser recuperadas, mas não podem ser pesquisadas, consultadas ou filtradas. Você só pode acessá-las depois que encontrar o índice.
As chaves de metadados não filtráveis permitem enriquecer vetores com contexto adicional que você deseja recuperar com os resultados da pesquisa, mas do qual não precisa para filtragem. Um exemplo comum do uso de chave de metadados não filtráveis é quando você incorpora texto em vetores e deseja incluir o texto original em si como metadados não filtráveis. Isso permite que você exiba o texto de origem com os resultados da pesquisa vetorial sem aumentar os limites de tamanho de metadados filtráveis. Outros exemplos incluem armazenar carimbos de data/hora de criação, URLs de origem ou informações descritivas apenas para referência. As chaves de metadados não filtráveis podem ser acessadas ao recuperar vetores, mas, diferentemente das chaves de metadados padrão, elas não podem ser usadas como filtros de consulta.
Os requisitos para chaves de metadados não filtráveis são apresentados a seguir.
-
As chaves de metadados não filtráveis devem ser exclusivas dentro do índice de vetores.
-
As chaves de metadados não filtráveis devem ter de 1 a 63 caracteres.
-
As chaves de metadados não filtráveis não podem ser modificadas após a criação do índice de vetores.
-
O S3 Vectors oferecem permite até dez chaves de metadados não filtráveis por índice.