Arquiteturas de integração Permissões obrigatórias do IAM Configurando a integração do Amazon S3 Vectors com OpenSearch

Importação dos vetores do Amazon S3 para o Serverless OpenSearch

O Amazon S3 Vectors disponibiliza o primeiro armazenamento de objetos em nuvem com compatibilidade nativa com armazenamento e consulta de vetores. O S3 Vectors oferece armazenamento vetorial econômico, elástico e durável que pode ser consultado com base em significado semântico e similaridade. Ele oferece tempos de resposta a consulta de menos de um segundo e custos até 90% mais baixos para carregar, armazenar e consultar vetores.

O Amazon S3 Vectors introduz buckets vetoriais do S3, que você pode usar para armazenar, acessar e consultar dados vetoriais sem provisionar nenhuma infraestrutura. Dentro de um bucket vetorial, você pode organizar os dados vetoriais dentro de índice vetoriais. O bucket vetorial pode ter vários índices vetoriais, e cada índice pode conter milhões de vetores. Para saber mais, consulte Trabalhar com o Amazon S3 Vectors e buckets de vetores no Guia do usuário do Amazon S3.

Cada vetor consiste em:

Uma chave exclusiva
Dados vetoriais
Metadados opcionais no formato JSON

Os índices vetoriais são compatíveis com as funções de distância euclidiana e cosseno para operações de pesquisa de similaridade.

nota

A principal vantagem dos buckets vetoriais é a capacidade de armazenar grandes conjuntos de dados a um custo extremamente baixo e, ao mesmo tempo, oferecer acesso direto à API para operações vetoriais.

Para saber mais sobre os buckets do Amazon S3 Vectors, consulte Trabalhar com o S3 Vectors e buckets de vetores no Guia do usuário do Amazon S3. Para obter mais informações sobre a integração com o OpenSearch Service além do que está descrito neste tópico, consulte Usando vetores do S3 com o Service OpenSearch

Você pode usar o S3 Vectors com o Amazon OpenSearch Service para reduzir o custo do armazenamento vetorial quando as consultas são menos frequentes e, em seguida, mover rapidamente esses conjuntos de dados à medida que as demandas aumentam ou para OpenSearch aprimorar os recursos de pesquisa.

OpenSearch O serviço se integra aos vetores do Amazon S3 para fornecer desempenho e funcionalidade aprimorados, além do que os buckets vetoriais do Amazon S3 oferecem sozinhos. Considere essa integração quando precisar de:

Maior throughput de queries
Sub-second latência de pesquisa
Recursos avançados de analytics como agregações
Pesquisa híbrida combinando texto e dados vetoriais

Essa integração é particularmente útil quando várias aplicações consomem os mesmos dados vetoriais com requisitos de performance diferentes. Você pode fazer com que alguns aplicativos interajam diretamente com os buckets vetoriais do Amazon S3 para casos de uso econômicos, enquanto outros aproveitam a OpenSearch integração para operações de desempenho crítico.

Arquiteturas de integração

A integração usa o Amazon OpenSearch Ingestion (OSI) como o pipeline de dados entre os índices vetoriais do Amazon S3 e as coleções vetoriais do Amazon OpenSearch Serverless. OpenSearch A ingestão exporta automaticamente os dados vetoriais do seu índice vetorial especificado e os ingere em coleções vetoriais OpenSearch sem servidor para operações de pesquisa de alto desempenho.

nota

Após a exportação, os dados ainda estarão presentes no índice vetorial do S3. Você tem duas cópias dos dados.

Cada índice vetorial é mapeado para um índice correspondente na coleção OpenSearch Serverless. A integração:

Preserva as dimensões vetoriais
Retém metadados
Otimiza a estrutura de dados para os OpenSearch recursos de pesquisa vetorial

Após a configuração, o OpenSearch Inestion inicia o processo de exportação de dados consumindo vetores do índice vetorial especificado usando a API do Amazon ListVectors S3. O serviço processa vetores em paralelo para otimizar a velocidade de ingestão, respeitando os limites de escalabilidade do Ingestion e do Amazon Serverless OpenSearch . OpenSearch

Importante

A integração realiza uma importação única de dados vetoriais do Amazon S3 Vectors para OpenSearch o Amazon Serverless. Depois que a exportação inicial for concluída, o pipeline será interrompido automaticamente. Se, posteriormente, você adicionar ou modificar vetores no índice vetorial do Amazon S3, deverá iniciar uma nova importação para sincronizar as alterações com sua coleção. OpenSearch A integração não fornece sincronização contínua ou automática.

Durante a ingestão, o serviço:

Transforma os dados vetoriais para corresponder ao formato esperado para OpenSearch o Serviço
Preserva informações essenciais, incluindo valores vetoriais, metadados e métricas de distância
Lida com cenários de falha por meio de mecanismos inteligentes de repetição
Coloca registros problemáticos em um bucket do Amazon S3 usado como fila de mensagens não entregues para análise posterior

A integração lida com grandes conjuntos de dados de forma eficiente, sendo que a performance depende das dimensões vetoriais, do tamanho do conjunto de dados e dos limites de escalabilidade configurados. O OSI pode escalar até 16 trabalhadores por pipeline, enquanto o OpenSearch Serverless ajusta automaticamente a capacidade com base nas demandas de ingestão. Por padrão, OpenSearch aumenta a Unidade maxSearch OpenSearch Computacional (OCU) no lado OpenSearch sem servidor para 100.

nota

A integração prioriza a eficiência de custos por meio de:

Desligamento automático do pipeline após a conclusão da exportação
OpenSearch Dimensionamento de coleções sem servidor
Pay-per-use modelo de recursos

Permissões obrigatórias do IAM

A integração exige uma configuração cuidadosa das permissões do IAM para permitir a comunicação segura entre os serviços. OpenSearch A ingestão precisa de permissões para ler os índices vetoriais do Amazon S3, gravar OpenSearch nas coleções de vetores do Service e gerenciar as políticas de segurança associadas.

Ao habilitar a integração usando o procedimento apresentado posteriormente neste tópico, você pode escolher uma das seguintes opções para gerenciamento de permissões:

Permitir que o sistema crie automaticamente um perfil de serviço com as permissões necessárias
Fornecer um perfil existente que atenda aos requisitos

O perfil criado automaticamente inclui políticas para:

Acessar APIs de índice do Amazon S3 Vectors
Gerenciando operações OpenSearch de coleta de serviços
Lidar com operações de fila de mensagens não entregues para tentativas de ingestão malsucedidas

Se você optar por especificar um perfil existente, verifique se ele tem as seguintes permissões do IAM:

(Obrigatório): permissões de pipeline de dados entre OpenSearch Ingestion e OpenSearch Serverless

(Obrigatório): Permissões de ingestão de dados entre a OpenSearch ingestão e a fila de mensagens mortas do Amazon S3

(Obrigatório): Permissões de ingestão de dados entre a OpenSearch ingestão e os vetores do Amazon S3

(Obrigatório se a AWS KMS criptografia estiver habilitada): Permissões de decodificação para comunicação entre a OpenSearch ingestão e os vetores do Amazon S3

Configurando a integração do Amazon S3 Vectors com OpenSearch

Use o procedimento a seguir para configurar a integração do Amazon S3 Vectors com o Serverless. OpenSearch

nota

Se você iniciou o processo de configuração da integração a partir do console do Amazon S3 escolhendo a opção Exportar OpenSearch para na página Vector buckets, algumas das etapas do procedimento a seguir não são aplicáveis, conforme observado no procedimento.

Para configurar a integração do Amazon S3 Vectors com o Serverless OpenSearch

Abra a página Importar índice vetorial do S3 para mecanismo OpenSearch vetorial no console do Amazon OpenSearch Service. A página é exibida automaticamente se você clicar em Exportar para OpenSearch no console do Amazon S3. Se você estiver iniciando no OpenSearch console, escolha Integração no painel de navegação à esquerda e escolha Importar índice vetorial do S3.
Na seção Origem, se você começou no console do Amazon S3, verifique se o nome do índice vetorial e seu nome do recurso da Amazon (ARN) já estão especificados. Se você começou no OpenSearch console, insira o ARN do índice no campo ARN do índice vetorial S3.
Na seção Adicionar contas, escolha uma opção. Se você escolher um perfil existente, verifique se ele tem todas as permissões necessárias para integração, conforme descrito em Permissões obrigatórias do IAM.
(Opcional) Expanda Additional settings. Para Habilitar redundância (réplicas ativas), recomendamos deixar essa opção selecionada para ambientes de produção. Quando você cria sua primeira coleção, o OpenSearch Serverless instancia dois OCUs: um para indexação e outro para pesquisa. Para garantir alta disponibilidade, ele também lança um conjunto de nós em espera em outra zona de disponibilidade. Para fins de desenvolvimento e teste, você pode desabilitar a configuração Habilitar redundância para uma coleção, o que elimina as duas réplicas em espera e instancia apenas duas OCUs. Réplicas ativas redundantes estão habilitadas por padrão, o que significa que um total de quatro OCUs são instanciadas para a primeira coleção em uma conta.

Em Adicionar AWS KMS chave gerenciada pelo cliente para o vetor Amazon OpenSearch Serverless, escolha essa opção para criptografar dados na coleção vetorial usando uma chave gerenciada pelo cliente. Por padrão, OpenSearch usa um Chave gerenciada pela AWS.
Se você iniciou esse processo clicando na OpenSearch opção Exportar para no console do Amazon S3, a seção Detalhes da exportação lista as etapas OpenSearch a seguir. Quando estiver pronto, selecione Exportar.

Se você iniciou esse processo no console de OpenSearch serviço, a seção Detalhes da importação lista as etapas a serem OpenSearch seguidas a seguir. Quando estiver pronto, selecione Importar.

OpenSearch abre a página de histórico para exibir todos os índices vetoriais exports/imports do Amazon S3 em índices sem servidor. OpenSearch

Após a ingestão bem-sucedida, o OSI interrompe automaticamente o pipeline para evitar custos desnecessários e, ao mesmo tempo, manter os dados exportados. OpenSearch Você pode monitorar o progresso da integração por meio de CloudWatch métricas e acessar registros detalhados para solucionar problemas.

A OpenSearch coleção permanece ativa e disponível para consultas após a conclusão da ingestão inicial. Você pode realizar:

Pesquisas de similaridade
Agregações
Operações de analytics

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Pesquisa vetorial

Recursos avançados de pesquisa com um mecanismo vetorial Amazon S3