(Versão prévia) Importar do Amazon S3 Vectors para o OpenSearch sem Servidor
Importante
A integração do Amazon S3 Vectors com o OpenSearch Service está em versão prévia e sujeita a alterações.
O Amazon S3 Vectors fornece o primeiro armazenamento de objetos em nuvem com compatibilidade nativa com armazenamento e consulta de vetores. O S3 Vectors fornece armazenamento vetorial econômico, elástico e durável que pode ser consultado com base em significado semântico e similaridade. Ele oferece tempos de resposta a consulta de menos de um segundo e custos até 90% mais baixos para carregar, armazenar e consultar vetores.
O Amazon S3 Vectors introduz buckets vetoriais do S3, que você pode usar para armazenar, acessar e consultar dados vetoriais sem provisionar nenhuma infraestrutura. Dentro de um bucket vetorial, você pode organizar os dados vetoriais dentro de índice vetoriais. O bucket vetorial pode ter vários índices vetoriais, e cada índice pode conter milhões de vetores. Para obter mais informações, consulte Trabalhar com o Amazon S3 Vectors e buckets de vetores no Guia do usuário do Amazon S3.
Cada vetor consiste em:
-
Uma chave exclusiva
-
Dados vetoriais
-
Metadados opcionais no formato JSON
Os índices vetoriais são compatíveis com as funções de distância euclidiana e cosseno para operações de pesquisa de similaridade.
nota
A principal vantagem dos buckets vetoriais é a capacidade de armazenar grandes conjuntos de dados a um custo extremamente baixo e, ao mesmo tempo, oferecer acesso direto à API para operações vetoriais.
Para obter mais informações sobre os buckets do Amazon S3 Vectors, consulte Trabalhar com o S3 Vectors e buckets de vetores no Guia do usuário do Amazon S3. Para obter mais informações sobre a integração com o OpenSearch Service além do que está descrito neste tópico, consulte Usar o S3 Vectors com o OpenSearch Service
Você pode usar o S3 Vectors com o Amazon OpenSearch Service para reduzir o custo do armazenamento vetorial quando as consultas são menos frequentes e, em seguida, mover rapidamente esses conjuntos de dados para o OpenSearch à medida que as demandas aumentam ou para aprimorar os recursos de pesquisa.
O OpenSearch Service se integra ao Amazon S3 Vectors para fornecer melhor performance e funcionalidade, além do que os buckets vetoriais do Amazon S3 já oferecem sozinhos. Considere essa integração quando precisar de:
-
Maior throughput de queries
-
Latência de pesquisa abaixo de um segundo
-
Recursos avançados de analytics como agregações
-
Pesquisa híbrida combinando texto e dados vetoriais
Essa integração é particularmente útil quando várias aplicações consomem os mesmos dados vetoriais com requisitos de performance diferentes. Você pode ter alguns aplicações que interajam diretamente com os buckets vetoriais do Amazon S3 para casos de uso sensíveis ao custo, enquanto outras utilizam a integração do OpenSearch para operações em que performance é essencial.
Arquiteturas de integração
A integração usa o Amazon OpenSearch Ingestion (OSI) como o pipeline de dados entre os índice vetoriais do Amazon S3 e as coleções vetoriais do Amazon OpenSearch sem Servidor. O OpenSearch Ingestion exporta automaticamente os dados vetoriais do índice vetorial especificado e os ingere nas coleções vetoriais do OpenSearch sem Servidor para operações de pesquisa de alta performance.
nota
Após a exportação, os dados ainda estarão presentes no índice vetorial do S3. Você tem duas cópias dos dados.
Cada índice vetorial é mapeado para um índice correspondente na coleção do OpenSearch Service. A integração:
-
Preserva as dimensões vetoriais
-
Retém metadados
-
Otimiza a estrutura de dados para os recursos de pesquisa vetorial do OpenSearch
Após a configuração, o OpenSearch Ingestion inicia o processo de exportação de dados consumindo vetores do índice vetorial especificado usando a API ListVectors do Amazon S3. O serviço processa vetores em paralelo para otimizar a velocidade de ingestão, respeitando os limites de escalabilidade do OpenSearch Ingestion e do Amazon OpenSearch sem Servidor.
Durante a ingestão, o serviço:
-
Transforma dados vetoriais para que correspondam ao formato esperado para o OpenSearch Service
-
Preserva informações essenciais, incluindo valores vetoriais, metadados e métricas de distância
-
Lida com cenários de falha por meio de mecanismos inteligentes de repetição
-
Coloca registros problemáticos em um bucket do Amazon S3 usado como fila de mensagens não entregues para análise posterior
A integração lida com grandes conjuntos de dados de forma eficiente, sendo que a performance depende das dimensões vetoriais, do tamanho do conjunto de dados e dos limites de escalabilidade configurados. O OSI pode aumentar a escala verticalmente até 16 trabalhadores por pipeline, enquanto o OpenSearch sem Servidor ajusta automaticamente a capacidade com base nas demandas de ingestão. Por padrão, o OpenSearch aumenta as unidades de computação do OpenSearch (OCU) de maxSearch no lado OpenSearch sem Servidor para 100.
nota
A integração prioriza a eficiência de custos por meio de:
-
Desligamento automático do pipeline após a conclusão da exportação
-
Escalação da coleção do OpenSearch sem Servidor
-
Modelo de recursos com pagamento por uso
Permissões obrigatórias do IAM
A integração exige uma configuração cuidadosa das permissões do IAM para habilitar a comunicação segura entre os serviços. O OpenSearch Ingestion precisa de permissões para ler os índice vetoriais do Amazon S3, gravar nas coleções vetoriais do OpenSearch Service e gerenciar as políticas de segurança associadas.
Ao habilitar a integração usando o procedimento apresentado posteriormente neste tópico, você pode escolher uma das seguintes opções para gerenciamento de permissões:
-
Permitir que o sistema crie automaticamente um perfil de serviço com as permissões necessárias
-
Fornecer um perfil existente que atenda aos requisitos
O perfil criado automaticamente inclui políticas para:
-
Acessar APIs de índice do Amazon S3 Vectors
-
Gerenciar operações de coleção do OpenSearch Service
-
Lidar com operações de fila de mensagens não entregues para tentativas de ingestão malsucedidas
Se você optar por especificar um perfil existente, verifique se ele tem as seguintes permissões do IAM:
(Obrigatório): permissões de pipeline de dados entre o OpenSearch Ingestion e o OpenSearch sem Servidor
(Obrigatório): permissões de ingestão de dados entre o OpenSearch Ingestion e a fila de mensagens não entregues do Amazon S3
(Obrigatório): permissões de ingestão de dados entre o OpenSearch Ingestion e o Amazon S3 Vectors
(Obrigatório se a criptografia do AWS KMS estiver habilitada): permissões de decodificação para comunicação entre o OpenSearch Inestion e os Amazon S3 Vectors
Configurar a integração do Amazon S3 Vectors com o OpenSearch
Use o procedimento a seguir para configurar a integração do Amazon S3 Vectors com o OpenSearch sem Servidor.
nota
Se você iniciou o processo de configuração da integração no console do Amazon S3 escolhendo a opção Exportar para o OpenSearch na página Buckets vetoriais, algumas das etapas do procedimento a seguir não serão aplicáveis, conforme observado no procedimento.
Para configurar a integração do Amazon S3 Vectors com o OpenSearch sem Servidor
-
Abra a página Importar índice vetorial do S3 para o mecanismo vetorial do OpenSearch no console do Amazon OpenSearch Service. A página é exibida automaticamente se você clicar em Exportar para o OpenSearch no console do Amazon S3. Se você começar no console do OpenSearch, escolha Integração no painel de navegação à esquerda e escolha Importar índice vetorial do S3.
-
Na seção Origem, se você começou no console do Amazon S3, verifique se o nome do índice vetorial e seu nome do recurso da Amazon (ARN) já estão especificados. Se você começou no console do OpenSearch, insira o ARN do índice no campo ARN do índice vetorial do S3.
-
Na seção Adicionar contas, escolha uma opção. Se você escolher um perfil existente, verifique se ele tem todas as permissões necessárias para integração, conforme descrito em Permissões obrigatórias do IAM.
-
(Opcional) Expanda Additional settings. Para Habilitar redundância (réplicas ativas), recomendamos deixar essa opção selecionada para ambientes de produção. Quando você cria sua primeira coleção, o OpenSearch Sem Servidor instancia duas OCUs — uma para indexação e outra para pesquisa. Para garantir alta disponibilidade, ele também lança um conjunto de nós em espera em outra zona de disponibilidade. Para fins de desenvolvimento e teste, você pode desabilitar a configuração Habilitar redundância para uma coleção, o que elimina as duas réplicas em espera e instancia apenas duas OCUs. Réplicas ativas redundantes estão habilitadas por padrão, o que significa que um total de quatro OCUs são instanciadas para a primeira coleção em uma conta.
Para Adicionar chave do AWS KMS gerenciada pelo cliente para o vetor do Amazon OpenSearch sem Servidor, escolha essa opção para criptografar dados na coleção vetorial usando uma chave gerenciada pelo cliente. Por padrão, o OpenSearch usa uma Chave gerenciada pela AWS.
-
Se você iniciou esse processo clicando na opção Exportar para o OpenSearch no console do Amazon S3, a seção Detalhes da exportação lista as próximas etapas que o OpenSearch seguirá. Quando estiver pronto, selecione Exportar.
Se você iniciou esse processo no console do OpenSearch Service, a seção Detalhes da importação lista as próximas etapas que o OpenSearch realizará. Quando estiver pronto, selecione Importar.
O OpenSearch abre a página de histórico para exibir todas as exportações/importações de índice vetoriais do Amazon S3 paras índices do OpenSearch sem Servidor.
Após a ingestão bem-sucedida, o OSI interrompe automaticamente o pipeline para evitar custos desnecessários e, ao mesmo tempo, mantém os dados exportados no OpenSearch. Você pode monitorar o progresso da integração por meio das métricas do CloudWatch e acessar registros detalhados para solucionar problemas.
A coleção do OpenSearch permanece ativa e disponível para consultas após a conclusão da ingestão inicial. Você pode realizar:
-
Pesquisas de similaridade
-
Agregações
-
Operações de analytics