Fluxo de dados - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Fluxo de dados

A área de foco do fluxo de dados inclui as três seguintes áreas:

  • Ingestão de dados

  • Retenção de dados

  • Abordagem da migração de dados

Ingestão de dados

A ingestão de dados se concentra em como colocar dados no seu domínio do Amazon OpenSearch Service. Uma compreensão completa dos formatos e das fontes de dados é fundamental ao escolher a estrutura de ingestão correta para o OpenSearch.

Há muitas maneiras diferentes de criar ou modernizar seu projeto de ingestão. Há muitas ferramentas de código aberto para criar um pipeline de ingestão autogerenciado. O OpenSearch Service oferece suporte à integração com o Fluentd, Logstash ou OpenSearch Data Prepper. Essas ferramentas são conhecidas pela maioria dos desenvolvedores de soluções de analytics de logs. Você pode implantar essas ferramentas em uma instância do Amazon EC2, no Amazon Elastic Kubernetes Service (Amazon EKS) ou on-premises. Tanto o Logstash quanto o Fluentd são compatíveis com os domínios do Amazon OpenSearch Service como destino de saída. No entanto, isso exigirá que você mantenha, aplique patches, teste e mantenha as versões do software Fluentd ou Logstash atualizadas.

Para reduzir sua sobrecarga operacional, você pode usar um dos serviços gerenciados da AWS que oferecem suporte à integração com o Amazon OpenSearch Service. Por exemplo, o Amazon OpenSearch Ingestion é um coletor de dados sem servidor totalmente gerenciado que fornece dados de logs, métricas e rastreamento em tempo real para domínios do Amazon OpenSearch Service. Com o OpenSearch Ingestion, você não precisa mais usar soluções de terceiros, como o Logstash ou Jaeger, para ingerir dados em seus domínios do OpenSearch Service. Você configura seus produtores de dados para enviar dados para a Ingestão do OpenSearch. Em seguida, ele entrega automaticamente os dados para o domínio ou coleção que você especificar. Você também pode configurar a Ingestão do OpenSearch para transformar os dados antes de entregá-los.

Outra opção é o Amazon Data Firehose, que é um serviço totalmente gerenciado que ajuda a criar um pipeline de ingestão sem servidor. O Firehose fornece uma maneira segura de ingerir, transformar e entregar dados de streaming para os domínios do Amazon OpenSearch Service. Ele pode escalar automaticamente para corresponder ao throughput de seus dados, e não requer administração contínua. O Firehose também pode transformar registros recebidos usando o AWS Lambda, compactando e processando os dados em lotes antes de carregá-los em seu domínio do OpenSearch Service.

Com um serviço gerenciado, você pode desativar seu pipeline de ingestão de dados existente ou aumentar sua configuração atual para reduzir a sobrecarga operacional.

O planejamento da migração é um bom momento para avaliar se seu pipeline de ingestão atual atende às necessidades dos casos de uso atuais e futuros. Se você estiver migrando de um cluster autogerenciado do Elasticsearch ou do OpenSearch, seu pipeline de ingestão deve ser compatível com a troca dos endpoints do cluster atual para o domínio do Amazon OpenSearch Service com o mínimo de atualizações da biblioteca cliente.

Retenção de dados

Ao planejar a ingestão e o armazenamento de dados, certifique-se de planejar e concordar com a retenção de dados. Para casos de uso de analytics de logs, é fundamental que você tenha as políticas certas criadas em seu domínio para descontinuar os dados históricos. Ao migrar de uma arquitetura existente baseada em VM on-premises e na nuvem, você pode estar usando um tipo específico de instância para todos os seus nós de dados. Os nós de dados têm o mesmo perfil de armazenamento, memória e CPU. A maioria dos clientes configura o armazenamento de alto throughput para atender às suas necessidades de indexação de alta velocidade. Essa arquitetura de perfil de armazenamento singular é chamada de arquitetura apenas de nó quente, ou simplemente hot-only. A arquitetura hot-only associa armazenamento com computação, o que implica que você precisará adicionar nós de computação se sua necessidade de armazenamento aumentar.

Para separar o armazenamento da computação, o Amazon OpenSearch Service oferece a camada de armazenamento UltraWarm. O UltraWarm oferece uma maneira econômica de armazenar dados somente leitura no Amazon OpenSearch Service, oferecendo nós que podem acomodar um volume maior de dados do que os nós de dados tradicionais.

Durante o planejamento, decida os requisitos de processamento e retenção de dados. Para reduzir o custo de sua solução existente, aproveite o nível UltraWarm. Identifique o requisito de retenção de seus dados. Depois, crie políticas de gerenciamento do estado do índice para mover os dados de quente para warm ou para excluir os dados automaticamente do domínio quando não forem necessários. Isso também ajuda a garantir que seu domínio não fique sem espaço de armazenamento.

Abordagens da migração de dados

Durante a etapa de planejamento, é fundamental que você decida sobre uma abordagem específica de migração de dados. Sua abordagem de migração de dados determina como você move os dados que estão em seu armazenamento de dados atual para o armazenamento de destino sem nenhuma lacuna. Os detalhes processuais dessas abordagens são abordados na seção Etapa 4: migração de dados, que é quando você implementa sua abordagem.

Essa seção aborda diferentes formas e padrões que você pode usar para migrar um cluster do Elasticsearch ou do OpenSearch para o Amazon OpenSearch Service. Ao escolher um padrão, considere a seguinte lista de fatores (não exaustiva):

  • Se você deseja copiar dados de um cluster autogerenciado existente ou se está recriando da fonte de dados original (arquivos de log, banco de dados do catálogo de produtos)

  • Compatibilidade de versão do cluster de origem do Elasticsearch ou do OpenSearch e do domínio de destino do Amazon OpenSearch Service

  • Aplicações e serviços dependentes do cluster do Elasticsearch ou do OpenSearch

  • A janela disponível para a migração

  • O volume de dados indexados em seu ambiente existente

Criar de um snapshot

Os snapshots são a maneira mais conhecida de realizar a migração de um cluster autogerenciado do Elasticsearch para o Amazon OpenSearch Service. Os snapshots oferecem uma forma de fazer backup de seus dados do OpenSearch ou do Elasticsearch usando um serviço de armazenamento durável, como o Amazon S3. Com essa abordagem, você obém um snapshot do seu ambiente atual do Elasticsearch ou do OpenSearch e o restaura no ambiente de destino do Amazon OpenSearch Service. Depois de restaurar o snapshot, você pode direcionar sua aplicação para o novo ambiente. Esta é uma solução mais rápida nas seguintes situações:

  • Sua origem e destino são compatíveis.

  • O cluster existente contém um grande volume de dados indexados, o que pode levar tempo para ser reindexado.

  • Seus dados de origem não estão disponíveis para reindexação.

Para considerações adicionais, consulte Considerações sobre snapshots na seção Etapa 4: migração de dados.

Criar da origem

Essa abordagem implica que você não moverá dados do seu cluster atual do Elasticsearch ou do OpenSearch. Em vez disso, você recarrega os dados diretamente do seu log ou da origem do catálogo de produtos para o domínio de destino do Amazon OpenSearch Service. Isso geralmente é feito com pequenas alterações nos pipelines de ingestão de dados existentes. No caso de uso de analytics de log, a criação da origem também pode exigir o recarregamento dos logs históricos de suas origens para o novo ambiente do OpenSearch Service. Para casos de uso de pesquisa, pode ser necessário que você recarregue o conteúdo e o catálogo completo de produtos no novo domínio do Amazon OpenSearch Service. Essa abordagem funciona bem nos seguintes cenários:

  • Suas versões do ambiente de origem e de destino não são compatíveis com a restauração de snapshots.

  • Você deseja alterar seu modelo de dados no ambiente de destino como parte da migração.

  • Você quer ir para a versão mais recente do Amazon OpenSearch Service para evitar atualizações contínuas, e quer resolver as alterações mais importantes de uma só vez. Isso pode ser uma boa ideia se você estiver gerenciando por conta própria uma versão relativamente mais antiga (5.x ou anterior) do Elasticsearch.

  • Talvez você queira alterar sua estratégia de indexação. Por exemplo, em vez de fazer o roll over todos os dias, você pode fazê-lo todos os meses no novo ambiente.

Para obter informações sobre as opções de criação da origem, consulte 2. Criando da origem na seção Etapa 4: migração de dados.

Reindexar remotamente de um ambiente existente do Elasticsearch ou do OpenSearch

Essa abordagem usa a API de reindexação remota do Amazon OpenSearch Service. Usando a reindexação remota, você pode copiar os dados diretamente do seu cluster existente do Elasticsearch ou do OpenSearch on-premises ou baseado na nuvem para o seu domínio do Amazon OpenSearch Service. Você pode criar uma automação que possa manter os dados sincronizados entre os dois locais do ambiente até que você passe para o ambiente de destino.

Usar ferramentas de migração de dados de código aberto

Há várias ferramentas de código aberto disponíveis para migrar dados do seu ambiente atual do Elasticsearch para seu ambiente de destino do Amazon OpenSearch. Um exemplo é o utilitário Logstash. Você pode usar o utilitário Logstash para extrair dados de um cluster do Elasticsearch ou do OpenSearch e copiá-los para o domínio do Amazon OpenSearch Service.

Recomendamos que você avalie todas as suas opções e opte por aquela com a qual se sinta mais confortável. Para garantir que a abordagem selecionada seja à prova de falhas, teste todas as suas ferramentas e automação durante o estágio de PoC. Para obter detalhes e orientações passo a passo sobre como implementar essas abordagens, consulte a seção Etapa 4: migração de dados.