Ingestão de dados Retenção de dados Abordagens da migração de dados

Fluxo de dados

A área de foco do fluxo de dados inclui as três seguintes áreas:

Ingestão de dados
Retenção de dados
Abordagem da migração de dados

Ingestão de dados

A ingestão de dados se concentra em como colocar dados em seu domínio do Amazon OpenSearch Service. Uma compreensão completa das fontes e formatos de dados é fundamental ao escolher a estrutura de ingestão certa para. OpenSearch

Há muitas maneiras diferentes de criar ou modernizar seu projeto de ingestão. Há muitas ferramentas de código aberto para criar um pipeline de ingestão autogerenciado. OpenSearch O serviço oferece suporte à integração com Fluentd, Logstash ou Data Prepper. OpenSearch Essas ferramentas são conhecidas pela maioria dos desenvolvedores de soluções de analytics de logs. Você pode implantar essas ferramentas em uma instância do Amazon EC2, no Amazon Elastic Kubernetes Service (Amazon EKS) ou on-premises. Tanto o Logstash quanto o Fluentd oferecem suporte aos domínios do OpenSearch Amazon Service como destino de saída. No entanto, isso exigirá que você mantenha, aplique patches, teste e mantenha as versões do software Fluentd ou Logstash atualizadas.

Para reduzir sua sobrecarga operacional, você pode usar um dos serviços AWS gerenciados que oferecem suporte à integração com o Amazon OpenSearch Service. Por exemplo, o Amazon OpenSearch Ingestion é um coletor de dados totalmente gerenciado e sem servidor que fornece dados de log, métricas e rastreamento em tempo real para os domínios do Amazon Service. OpenSearch Com a OpenSearch Ingestão, você não precisa mais usar soluções de terceiros, como Logstash ou Jaeger, para ingerir dados em seus domínios de serviço. OpenSearch Você configura seus produtores de dados para enviar dados para o OpenSearch Ingestion. Em seguida, ele entrega automaticamente os dados para o domínio ou coleção que você especificar. Você também pode configurar a OpenSearch ingestão para transformar seus dados antes de entregá-los.

Outra opção é o Amazon Data Firehose, que é um serviço totalmente gerenciado que ajuda a criar um pipeline de ingestão sem servidor. O Firehose fornece uma maneira segura de ingerir, transformar e entregar dados de streaming para os domínios do Amazon OpenSearch Service. Ele pode escalar automaticamente para corresponder ao throughput de seus dados, e não requer administração contínua. O Firehose também pode transformar registros recebidos usando AWS Lambda, compactando e agrupando os dados em lotes antes de carregá-los em seu domínio de serviço. OpenSearch

Com um serviço gerenciado, você pode desativar seu pipeline de ingestão de dados existente ou aumentar sua configuração atual para reduzir a sobrecarga operacional.

O planejamento da migração é um bom momento para avaliar se seu pipeline de ingestão atual atende às necessidades dos casos de uso atuais e futuros. Se você estiver migrando de um Elasticsearch ou OpenSearch cluster autogerenciado, seu pipeline de ingestão deve suportar a troca dos endpoints do cluster atual para o domínio do Amazon OpenSearch Service com o mínimo de atualizações na biblioteca do cliente.

Retenção de dados

Ao planejar a ingestão e o armazenamento de dados, certifique-se de planejar e concordar com a retenção de dados. Para casos de uso de analytics de logs, é fundamental que você tenha as políticas certas criadas em seu domínio para descontinuar os dados históricos. Ao migrar de uma arquitetura existente baseada em VM on-premises e na nuvem, você pode estar usando um tipo específico de instância para todos os seus nós de dados. Os nós de dados têm o mesmo perfil de armazenamento, memória e CPU. A maioria dos clientes configura o armazenamento de alto throughput para atender às suas necessidades de indexação de alta velocidade. Essa arquitetura de perfil de armazenamento singular é chamada de arquitetura apenas de nó quente, ou simplemente hot-only. A arquitetura hot-only associa armazenamento com computação, o que implica que você precisará adicionar nós de computação se sua necessidade de armazenamento aumentar.

Para dissociar o armazenamento da computação, o Amazon OpenSearch Service oferece o nível UltraWarm de armazenamento. UltraWarm fornece uma maneira econômica de armazenar dados somente para leitura no Amazon OpenSearch Service, fornecendo nós que podem acomodar um volume maior de dados do que os nós de dados tradicionais.

Durante o planejamento, decida os requisitos de processamento e retenção de dados. Para reduzir o custo de sua solução existente, aproveite o UltraWarm nível. Identifique o requisito de retenção de seus dados. Depois, crie políticas de gerenciamento do estado do índice para mover os dados de quente para warm ou para excluir os dados automaticamente do domínio quando não forem necessários. Isso também ajuda a garantir que seu domínio não fique sem espaço de armazenamento.

Abordagens da migração de dados

Durante a etapa de planejamento, é fundamental que você decida sobre uma abordagem específica de migração de dados. Sua abordagem de migração de dados determina como você move os dados que estão em seu armazenamento de dados atual para o armazenamento de destino sem nenhuma lacuna. Os detalhes processuais dessas abordagens são abordados na seção Etapa 4: migração de dados, que é quando você implementa sua abordagem.

Esta seção aborda diferentes formas e padrões que você pode usar para migrar um Elasticsearch ou cluster OpenSearch para o Amazon Service. OpenSearch Ao escolher um padrão, considere a seguinte lista de fatores (não exaustiva):

Se você deseja copiar dados de um cluster autogerenciado existente ou se está recriando da fonte de dados original (arquivos de log, banco de dados do catálogo de produtos)
Compatibilidade de versão do Elasticsearch ou OpenSearch cluster de origem e do domínio Amazon OpenSearch Service de destino
Aplicativos e serviços dependentes do Elasticsearch ou do cluster OpenSearch
A janela disponível para a migração
O volume de dados indexados em seu ambiente existente

Criar de um snapshot

Os snapshots são a forma mais popular de migrar de um cluster autogerenciado do Elasticsearch para o Amazon Service. OpenSearch Os snapshots fornecem uma forma de fazer backup de seus dados OpenSearch ou do Elasticsearch usando um serviço de armazenamento durável, como o Amazon S3. Com essa abordagem, você captura um instantâneo do seu Elasticsearch ou OpenSearch ambiente atual e o restaura no ambiente de destino do Amazon OpenSearch Service. Depois de restaurar o snapshot, você pode direcionar sua aplicação para o novo ambiente. Esta é uma solução mais rápida nas seguintes situações:

Sua origem e destino são compatíveis.
O cluster existente contém um grande volume de dados indexados, o que pode levar tempo para ser reindexado.
Seus dados de origem não estão disponíveis para reindexação.

Para considerações adicionais, consulte Considerações sobre snapshots na seção Etapa 4: migração de dados.

Criar da origem

Essa abordagem implica que você não moverá dados do seu Elasticsearch ou OpenSearch cluster atual. Em vez disso, você recarrega os dados diretamente do seu log ou da fonte do catálogo de produtos para o domínio de destino do Amazon OpenSearch Service. Isso geralmente é feito com pequenas alterações nos pipelines de ingestão de dados existentes. No caso de uso da análise de registros, a criação a partir da fonte também pode exigir o recarregamento dos registros históricos de suas fontes para o novo ambiente OpenSearch de serviço. Para casos de uso de pesquisa, pode ser necessário que você recarregue seu catálogo completo de produtos e conteúdo no novo domínio do Amazon OpenSearch Service. Essa abordagem funciona bem nos seguintes cenários:

Suas versões do ambiente de origem e de destino não são compatíveis com a restauração de snapshots.
Você deseja alterar seu modelo de dados no ambiente de destino como parte da migração.
Você quer ir para a versão mais recente do Amazon OpenSearch Service para evitar atualizações contínuas e quer resolver as alterações mais importantes de uma só vez. Isso pode ser uma boa ideia se você estiver gerenciando por conta própria uma versão relativamente mais antiga (5.x ou anterior) do Elasticsearch.
Talvez você queira alterar sua estratégia de indexação. Por exemplo, em vez de fazer o roll over todos os dias, você pode fazê-lo todos os meses no novo ambiente.

Para obter informações sobre as opções de criação da origem, consulte 2. Criando da origem na seção Etapa 4: migração de dados.

Reindexe remotamente a partir de um Elasticsearch ou ambiente existente OpenSearch

Essa abordagem usa a API de reindexação remota do Amazon OpenSearch Service. Usando a reindexação remota, você pode copiar dados diretamente do seu Elasticsearch ou cluster existente no local ou na nuvem OpenSearch para o seu domínio do Amazon Service. OpenSearch Você pode criar uma automação que possa manter os dados sincronizados entre os dois locais do ambiente até que você passe para o ambiente de destino.

Usar ferramentas de migração de dados de código aberto

Há várias ferramentas de código aberto disponíveis para migrar dados do seu ambiente Elasticsearch existente para o ambiente de destino da Amazon. OpenSearch Um exemplo é o utilitário Logstash. Você pode usar o utilitário Logstash para extrair dados de um Elasticsearch ou OpenSearch cluster e copiá-los para o domínio do Amazon Service. OpenSearch

Recomendamos que você avalie todas as suas opções e opte por aquela com a qual se sinta mais confortável. Para garantir que a abordagem selecionada seja à prova de falhas, teste todas as suas ferramentas e automação durante o estágio de PoC. Para obter detalhes e step-by-step orientações sobre como implementar essas abordagens, consulte a seção Etapa 4 — Migração de dados.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Treinamento

Frameworks de implantação