As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
(Versão prévia) Importação dos vetores do Amazon S3 para o servidor sem servidor OpenSearch
Importante
A integração do Amazon S3 Vectors com o OpenSearch Service está em versão prévia e está sujeita a alterações.
O Amazon S3 Vectors oferece o primeiro armazenamento de objetos na nuvem com suporte nativo para armazenar e consultar vetores. O S3 Vectors fornece armazenamento vetorial econômico, elástico e durável que pode ser consultado com base no significado semântico e na similaridade. Ele oferece tempos de resposta de consulta em menos de um segundo e custos até 90% mais baixos para carregar, armazenar e consultar vetores.
O Amazon S3 Vectors apresenta buckets vetoriais do S3, que você pode usar para armazenar, acessar e consultar dados vetoriais sem provisionar nenhuma infraestrutura. Dentro de um repositório vetorial, você pode organizar seus dados vetoriais em índices vetoriais. Seu intervalo de vetores pode ter vários índices vetoriais, e cada índice vetorial pode conter milhões de vetores. Para obter mais informações, consulte Como trabalhar com vetores e buckets vetoriais do Amazon S3 no Guia do usuário do Amazon S3.
Cada vetor consiste em:
-
Uma chave exclusiva
-
Dados vetoriais
-
Metadados opcionais no formato JSON
Os índices vetoriais oferecem suporte às funções de distância euclidiana e cosseno para operações de busca por similaridade.
nota
A principal vantagem dos compartimentos vetoriais é a capacidade de armazenar grandes conjuntos de dados a um custo extremamente baixo e, ao mesmo tempo, fornecer acesso direto à API para operações vetoriais.
Para obter mais informações sobre buckets vetoriais do Amazon S3, incluindo como criar um, consulte Como trabalhar com vetores e buckets vetoriais do Amazon S3 no Guia do usuário do Amazon S3. Para obter mais informações sobre a integração com o OpenSearch Service além do descrito neste tópico, consulte Usando vetores do S3 com o Service OpenSearch
Você pode usar o S3 Vectors com o Amazon OpenSearch Service para reduzir o custo do armazenamento vetorial quando as consultas são menos frequentes e, em seguida, mover rapidamente esses conjuntos de dados à medida que as demandas aumentam ou para OpenSearch aprimorar os recursos de pesquisa.
OpenSearch O serviço se integra aos vetores do Amazon S3 para fornecer desempenho e funcionalidade aprimorados, além do que os buckets vetoriais do Amazon S3 oferecem sozinhos. Considere essa integração quando precisar:
-
Maior taxa de transferência de consultas
-
Latência de pesquisa em menos de um segundo
-
Recursos avançados de análise, como agregações
-
Pesquisa híbrida combinando texto e dados vetoriais
Essa integração é particularmente útil quando vários aplicativos consomem os mesmos dados vetoriais com requisitos de desempenho diferentes. Você pode fazer com que alguns aplicativos interajam diretamente com os buckets vetoriais do Amazon S3 para casos de uso econômicos, enquanto outros aproveitam a OpenSearch integração para operações de desempenho crítico.
Arquitetura de integração
A integração usa o Amazon OpenSearch Ingestion (OSI) como o pipeline de dados entre os índices vetoriais do Amazon S3 e as coleções vetoriais do Amazon OpenSearch Serverless. OpenSearch A ingestão exporta automaticamente os dados vetoriais do seu índice vetorial especificado e os ingere em coleções vetoriais OpenSearch sem servidor para operações de pesquisa de alto desempenho.
nota
Após a exportação, seus dados ainda estarão presentes no índice vetorial do S3. Você tem duas cópias dos dados.
Cada índice vetorial é mapeado para um índice correspondente na coleção OpenSearch Service. A integração:
-
Preserva as dimensões vetoriais
-
Retém metadados
-
Otimiza a estrutura de dados para os OpenSearch recursos de pesquisa vetorial
Após a configuração, o OpenSearch Inestion inicia o processo de exportação de dados consumindo vetores do índice vetorial especificado usando a API do Amazon ListVectors S3. O serviço processa vetores em paralelo para otimizar a velocidade de ingestão, respeitando os limites de escalabilidade do Ingestion e do Amazon Serverless OpenSearch . OpenSearch
Durante a ingestão, o serviço:
-
Transforma dados vetoriais para corresponder ao formato esperado para OpenSearch o Serviço
-
Preserva informações essenciais, incluindo valores vetoriais, metadados e métricas de distância
-
Lida com cenários de falha por meio de mecanismos inteligentes de repetição
-
Coloca registros problemáticos em um bucket do Amazon S3 usado como uma fila de letras mortas para análise posterior
A integração lida com grandes conjuntos de dados de forma eficiente, com desempenho dependendo das dimensões vetoriais, do tamanho do conjunto de dados e dos limites de escalabilidade configurados. O OSI pode escalar até 16 trabalhadores por pipeline, enquanto o OpenSearch Serverless ajusta automaticamente a capacidade com base nas demandas de ingestão. Por padrão, OpenSearch aumenta a Unidade maxSearch
OpenSearch Computacional (OCU) no lado OpenSearch sem servidor para 100.
nota
A integração prioriza a eficiência de custos por meio de:
-
Desligamento automático do gasoduto após a conclusão da exportação
-
OpenSearch Dimensionamento de coleções sem servidor
-
Pay-per-use modelo de recursos
Permissões obrigatórias do IAM
A integração exige uma configuração cuidadosa das permissões do IAM para permitir a comunicação segura entre os serviços. OpenSearch A ingestão precisa de permissões para ler os índices vetoriais do Amazon S3, gravar OpenSearch nas coleções de vetores do Service e gerenciar as políticas de segurança associadas.
Ao habilitar a integração usando o procedimento mais adiante neste tópico, você pode escolher uma das seguintes opções para o gerenciamento de permissões:
-
Permita que o sistema crie automaticamente uma função de serviço com as permissões necessárias
-
Forneça uma função existente que atenda aos requisitos
A função criada automaticamente inclui políticas para:
-
Acessando o índice vetorial do Amazon S3 APIs
-
Gerenciando operações OpenSearch de coleta de serviços
-
Lidando com operações de fila de letras mortas para tentativas de ingestão malsucedidas
Se você optar por especificar uma função existente, verifique se a função tem as seguintes permissões do IAM:
(Obrigatório): permissões de pipeline de dados entre OpenSearch Ingestion e OpenSearch Serverless
{ "Version": "2012-10-17", "Statement": [ { "Sid": "allowAPIs", "Effect": "Allow", "Action": [ "aoss:APIAccessAll", "aoss:BatchGetCollection" ], "Resource": [ "arn:aws:aoss:*:
account-id
:collection/collection-id
" ] }, { "Sid": "allowSecurityPolicy", "Effect": "Allow", "Action": [ "aoss:CreateSecurityPolicy", "aoss:UpdateSecurityPolicy", "aoss:GetSecurityPolicy" ], "Resource": "*", "Condition":{ "StringLike":{ "aoss:collection": [ "collection-name
" ] }, "StringEquals": { "aws:ResourceAccount": [ "account-id
" ] } } } ] }
(Obrigatório): Permissões de ingestão de dados entre a OpenSearch ingestão e a fila de mensagens mortas do Amazon S3
{ "Version": "2012-10-17", "Statement": [ { "Sid": "s3Access", "Effect": "Allow", "Action": [ "s3:PutObject" ], "Resource": [ "arn:aws:s3:::
bucket
/*" ] } ] }
(Obrigatório): Permissões de ingestão de dados entre a OpenSearch ingestão e os vetores do Amazon S3
{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowS3VectorIndexAccess", "Effect": "Allow", "Action": [ "s3vectors:ListVectors", "s3vectors:GetVectors" ], "Resource": [ "arn:aws:s3vectors:
region
:account-id
:bucket/bucket-name
/index/index-name
" ] } ] }
(Obrigatório se a AWS KMS criptografia estiver habilitada): Permissões de decodificação para comunicação entre a OpenSearch ingestão e os vetores do Amazon S3
{ "Version": "2012-10-17", "Statement": [ { "Sid": "allowS3VectorDecryptionOfCustomManagedKey", "Effect": "Allow", "Action": [ "kms:Decrypt" ], "Resource": [ "arn:aws:kms:
region
:account-id
:key/key-id
" ], "Condition": { "StringEquals": { "kms:ViaService": "s3vectors.region
.amazonaws.com", "kms:EncryptionContext:aws:s3vectors:arn": "arn:aws:s3vectors:region
:account-id
:bucket/bucket-name
" } } } ] }
Configurando a integração do Amazon S3 Vectors com OpenSearch
Use o procedimento a seguir para configurar a integração do Amazon S3 Vectors com o Serverless. OpenSearch
nota
Se você iniciou o processo de configuração da integração no console do Amazon S3 escolhendo a opção Exportar OpenSearch para na página Vector buckets, algumas das etapas do procedimento a seguir não são aplicáveis, conforme observado no procedimento.
Para configurar a integração do Amazon S3 Vectors com o Serverless OpenSearch
-
Abra a página Importar índice vetorial do S3 para mecanismo OpenSearch vetorial no console do Amazon OpenSearch Service. A página é exibida automaticamente se você clicar em Exportar para OpenSearch no console do Amazon S3. Se você estiver iniciando no OpenSearch console, escolha Integração no painel de navegação à esquerda e escolha Importar índice vetorial do S3.
-
Na seção Fonte, se você começou no console do Amazon S3, verifique se o nome do índice vetorial e seu Amazon Resource Name (ARN) já estão especificados. Se você começou no OpenSearch console, insira o ARN do índice no campo ARN do índice vetorial S3.
-
Na seção Acesso ao serviço, escolha uma opção. Se você escolher uma função existente, verifique se ela tem todas as permissões necessárias para integração, conforme descrito emPermissões obrigatórias do IAM.
-
(Opcional) Expanda Additional settings. Para Habilitar redundância (réplicas ativas), recomendamos deixar essa opção selecionada para ambientes de produção. Quando você cria sua primeira coleção, o OpenSearch Serverless instancia duas OCUs — uma para indexação e outra para pesquisa. Para garantir alta disponibilidade, ele também lança um conjunto de nós em espera em outra zona de disponibilidade. Para fins de desenvolvimento e teste, você pode desativar a configuração Ativar redundância para uma coleção, que elimina as duas réplicas em espera e instancia apenas duas. OCUs Por padrão, as réplicas ativas redundantes estão habilitadas, o que significa que um total de quatro OCUs são instanciadas para a primeira coleção em uma conta.
Em Adicionar AWS KMS chave gerenciada pelo cliente para o vetor Amazon OpenSearch Serverless, escolha essa opção para criptografar dados na coleção vetorial usando uma chave gerenciada pelo cliente. Por padrão, OpenSearch usa um Chave gerenciada pela AWS.
-
Se você iniciou esse processo clicando na OpenSearch opção Exportar para no console do Amazon S3, a seção Detalhes da exportação lista as etapas OpenSearch a seguir. Quando estiver pronto, escolha Exportar.
Se você iniciou esse processo no console de OpenSearch serviço, a seção Detalhes da importação lista as etapas a serem OpenSearch seguidas a seguir. Quando estiver pronto, escolha Importar.
OpenSearch abre a página de histórico para exibir todos os índices vetoriais exports/imports do Amazon S3 em índices sem servidor. OpenSearch
Após a ingestão bem-sucedida, o OSI interrompe automaticamente o pipeline para evitar custos desnecessários e, ao mesmo tempo, manter os dados exportados. OpenSearch Você pode monitorar o progresso da integração por meio de CloudWatch métricas e acessar registros detalhados para solucionar problemas.
A OpenSearch coleção permanece ativa e disponível para consultas após a conclusão da ingestão inicial. Você pode executar:
-
Pesquisas por similaridade
-
Agregações
-
Operações de análise