O que é o Amazon OpenSearch Sem Servidor?
O Amazon OpenSearch sem Servidor é uma opção de tecnologia sem servidor para o Amazon OpenSearch Service que elimina a complexidade operacional de provisionar, configurar e ajustar clusters do OpenSearch. É ideal para organizações que preferem não autogerenciar seus clusters ou que não têm recursos e expertise dedicados para operar implantações em grande escala. Com o OpenSearch Serverless, você pode pesquisar e analisar grandes volumes de dados sem precisar gerenciar a infraestrutura subjacente.
Uma coleção do OpenSearch Sem Servidor é um grupo de índices do OpenSearch que trabalham juntos para dar suporte a uma workload ou a caso de uso específico. Coleções simplificam as operações em comparação com os clusters autogerenciados do OpenSearch, que exigem provisionamento manual.
As coleções usam o mesmo armazenamento de alta capacidade, distribuído e altamente disponível que os domínios do OpenSearch Service provisionados, mas reduzem ainda mais a complexidade eliminando a configuração e o ajuste manuais. Os dados de uma coleção são criptografados durante a transmissão. O OpenSearch Serverless também é compatível com o OpenSearch Dashboards, fornecendo uma interface para análise de dados.
No momento, as coleções com tecnologia sem servidor executam o OpenSearch versão 2.17.x. À medida que novas versões são lançadas, o OpenSearch sem Servidor atualiza automaticamente as coleções para incorporar novos recursos, correções de erros e melhorias de performance.
O OpenSearch Sem Servidor oferece suporte às mesmas operações de API de ingestão e consulta do pacote de código aberto OpenSearch para que seja possível continuar usando seus clientes e aplicações existentes. Seus clientes devem ser compatíveis com o OpenSearch 2.x para trabalhar com o OpenSearch Sem Servidor. Para obter mais informações, consulte Ingestão de dados nas coleções do Amazon OpenSearch Sem Servidor.
Tópicos
Casos de uso do OpenSearch Sem Servidor
O OpenSearch Sem Servidor oferece suporte a dois casos de uso principais:
-
Análise de logs: o segmento de analytics de logs se concentra na análise de grandes volumes de dados de séries temporais, semiestruturados e gerados por máquina para obter informações operacionais e de comportamento do usuário.
-
Pesquisa de texto completo: o segmento de pesquisa de texto completo alimenta aplicações em suas redes internas (sistemas de gerenciamento de conteúdo, documentos legais) e aplicações voltadas para a Internet, como a pesquisa de conteúdo de sites de comércio eletrônico.
Ao criar uma coleção, escolha um desses casos de uso. Para obter mais informações, consulte Escolha de um tipo de coleção.
Como funciona
Os clusters tradicionais do OpenSearch têm um único conjunto de instâncias que executam operações de indexação e pesquisa, e o armazenamento de índices está fortemente associado à capacidade de computação. Por outro lado, o OpenSearch sem Servidor usa uma arquitetura nativa da nuvem que separa os componentes de indexação (ingestão) dos componentes de pesquisa (consulta), tendo o Amazon S3 como o principal armazenamento de dados para índices.
Essa arquitetura desacoplada permite escalar as funções de pesquisa e indexação de forma independente uma da outra e independentemente dos dados indexados no S3. A arquitetura também fornece isolamento para operações de ingestão e consulta para que elas possam ser executadas simultaneamente, sem contenção de recursos.
Quando você grava dados em uma coleção, o OpenSearch Sem Servidor os distribui para as unidades computacionais de indexação. As unidades computacionais de indexação ingerem os dados recebidos e movem os índices para S3. Quando você realiza uma pesquisa nos dados da coleção, o OpenSearch Sem Servidor encaminha as solicitações para as unidades computacionais de pesquisa que contêm os dados que estão sendo consultados. As unidades computacionais de pesquisa baixam os dados indexados diretamente do S3 (se ainda não estiverem armazenados em cache localmente), executam operações de pesquisa e realizam agregações.
A imagem a seguir ilustra essa arquitetura desacoplada:
A capacidade computacional do OpenSearch Sem Servidor para ingestão, pesquisa e consulta de dados é medida em unidades de computação do OpenSearch (OCUs). Cada OCU é uma combinação de 6 GiB de memória e CPU virtual (vCPU) correspondente e cria um pipeline de dados para o Amazon S3. Cada OCU inclui armazenamento efêmero de atividade muito alta que é suficiente para 120 GiB de dados de indexação.
Quando você cria sua primeira coleção, o OpenSearch Sem Servidor instancia duas OCUs — uma para indexação e outra para pesquisa. Para garantir alta disponibilidade, ele também lança um conjunto de nós em espera em outra zona de disponibilidade. Para fins de desenvolvimento e teste, você pode desabilitar a configuração Habilitar redundância para uma coleção, o que elimina as duas réplicas em espera e instancia apenas duas OCUs. Réplicas ativas redundantes estão habilitadas por padrão, o que significa que um total de quatro OCUs são instanciadas para a primeira coleção em uma conta.
Essas OCUs existem mesmo quando não há atividade em nenhum dos endpoints da coleção. Todas as coleções subsequentes compartilham essas OCUs. Quando você cria coleções adicionais na mesma conta, o OpenSearch Sem Servidor só acrescenta OCUs adicionais para pesquisa e ingestão conforme necessário para oferecer suporte às coleções, de acordo com os limites de capacidade que você especificar. A capacidade é reduzida à medida que o uso da computação diminui.
Para obter informações sobre como você é cobrado por essas OCUs, consulte Preços.
Escolha de um tipo de coleção
O tecnologia sem servidor do OpenSearch oferece suporte a três tipos principais de coleção:
Séries temporais: o segmento de analytics de log que analisa em tempo real grandes volumes de dados semiestruturados gerados por máquinas, fornecendo insights sobre operações, segurança, comportamento do usuário e desempenho dos negócios.
Pesquisa: pesquisa em texto completo que habilita aplicações em redes internas, como sistemas de gerenciamento de conteúdo e repositórios de documentos jurídicos, assim como aplicações voltadas para a internet, como pesquisa em sites de comércio eletrônico e descoberta de conteúdo.
Pesquisa vetorial: a pesquisa semântica em incorporações vetoriais simplifica o gerenciamento de dados vetoriais e possibilita experiências de pesquisa aprimorada por machine learning (ML). É compatível com aplicações de IA generativa, como chatbots, assistentes pessoais e detecção de fraudes.
Você escolhe um tipo de coleção ao criar uma coleção pela primeira vez:
O tipo de coleção que você escolhe depende do tipo dos dados que planeja ingerir na coleção e de como você planeja consultá-los. Não é possível alterar o tipo da coleção depois de criá-la.
Os tipos de coleção têm as seguintes diferenças notáveis:
-
Para coleções de pesquisa e pesquisa vetorial, todos os dados são armazenados no armazenamento a quente para garantir tempos de resposta rápidos às consultas. As coleções de séries temporais usam uma combinação de armazenamento de atividade alta e muito alta, em que os dados mais recentes são mantidos em armazenamento de atividade muito alta para otimizar os tempos de resposta da consulta para dados acessados com mais frequência.
-
Para coleções de séries temporais e pesquisa vetorial, não é possível indexar por ID de documento personalizado nem atualizar por solicitações de upsert. Essa operação é reservada para casos de uso de pesquisa. Em vez disso, você pode atualizar por ID do documento. Para obter mais informações, consulte Operações e permissões com suporte na API do OpenSearch.
-
Para pesquisas e coleções de séries temporais, você não pode usar índices do tipo k-NN.
Preços
A AWS cobra os seguintes componentes do OpenSearch Serverless:
-
Computação de ingestão de dados
-
Computação de pesquisa e consulta
-
Armazenamento retido no Amazon S3
Uma OCU compreende 6 GB de RAM, vCPUs correspondentes, armazenamento GP3 e transferência de dados para o Amazon S3. A menor unidade que pode ser cobrada é 0,5 OCU. A AWS cobra OCUs por hora, com granularidade por segundo. Na discriminação da conta, existe uma entrada para computação em OCU-horas com uma rubrica para ingestão de dados e uma rubrica para pesquisa. A AWS também cobra pelos dados armazenados no Amazon S3 mensalmente . O uso do OpenSearch Dashboards não é cobrado.
Quando você cria uma coleção com réplicas ativas redundantes, um mínimo de 2 OCUs é cobrado:
-
1 OCU (0,5 OCU × 2) por ingestão, incluindo primária e em espera
-
1 OCU (0,5 OCU × 2) por pesquisa
Se você desabilitar réplicas ativas redundantes, será cobrado um mínimo de 1 OCU (0,5 OCU x 2) pela primeira coleção em sua conta. Todas as coleções subsequentes podem compartilhar essas OCUs.
O OpenSearch Serverless adiciona OCUs em incrementos de 1 OCU com base na capacidade de computação e armazenamento necessária para comportar suas coleções. É possível configurar um número máximo de OCUs para sua conta para controlar os custos.
nota
Coleções com AWS KMS keys exclusivas não podem compartilhar OCUs com outras coleções.
O OpenSearch sem Servidor tenta usar o mínimo de recursos necessário para levar em conta workloads variáveis. O número de OCUs provisionadas a cada momento pode variar e não é exato. Com o tempo, o algoritmo que o OpenSearch sem Servidor usa continuará a melhorar para minimizar mais o uso do sistema.
Para obter informações detalhadas sobre preços, consulte Preços do Amazon OpenSearch Service
Compatível com Regiões da AWS
O OpenSearch Sem Servidor está disponível em um subconjunto das Regiões da AWS em que o OpenSearch Service encontra-se disponível. Para obter uma lista das regiões compatíveis, consulte Endpoints e cotas do Amazon OpenSearch Service na Referência geral da AWS.
Limitações
O OpenSearch Sem Servidor apresenta as seguintes limitações:
-
Não há suporte a algumas operações da API do OpenSearch. Consulte Operações e permissões com suporte na API do OpenSearch.
-
Não há suporte a alguns plug-ins do OpenSearch. Consulte Plug-ins do OpenSearch com suporte.
-
No momento, não há como migrar automaticamente seus dados de um domínio gerenciado do OpenSearch Service para uma coleção com tecnologia sem servidor. É necessário reindexar seus dados de um domínio para uma coleção.
-
Não há suporte para acesso entre contas a coleções. Não é possível incluir coleções de outras contas em suas políticas de criptografia ou acesso a dados.
-
Não há suporte para plug-ins personalizados do OpenSearch.
-
Não é possível tirar ou restaurar snapshots de coleções do OpenSearch Sem Servidor.
-
Não há suporte para pesquisa e replicação entre regiões.
-
Há limites no número de recursos de tecnologia sem servidor possíveis em uma única conta e região. Consulte Cotas da tecnologia sem servidor do OpenSearch.
-
O intervalo de atualização dos índices nas coleções de pesquisa vetorial é de aproximadamente 60 segundos. O intervalo de atualização dos índices nas coleções de pesquisa e série temporal é de aproximadamente 10 segundos.
-
O número de fragmentos, o número de intervalos e o intervalo de atualização não são modificáveis e são gerenciados pela tecnologia sem servidor do OpenSearch. A estratégia de fragmentação é baseada no tipo de coleta e no tráfego. Por exemplo, uma coleção de séries temporais dimensiona os fragmentos primários com base nos gargalos do tráfego de gravação.
-
Os atributos geoespaciais disponíveis são compatíveis com as versões do OpenSearch até 2.1.