Migração de workloads do AWS Data Pipeline - AWS Data Pipeline

AWS Data Pipeline não está mais disponível para novos clientes. Os clientes existentes do AWS Data Pipeline podem continuar usando o serviço normalmente. Saiba mais

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Migração de workloads do AWS Data Pipeline

A AWS lançou o serviço AWS Data Pipeline em 2012. Naquela época, os clientes procuravam um serviço que os ajudasse a mover dados de forma confiável entre diferentes fontes de dados usando uma variedade de opções de computação. Agora, existem outros serviços que oferecem aos clientes uma experiência melhor. Por exemplo, você pode usar o AWS Glue para executar e orquestrar aplicações do Apache Spark, o AWS Step Functions para ajudar a orquestrar componentes de serviço da AWS ou o Amazon Managed Workflows for Apache Airflow (Amazon MWAA) para ajudar a gerenciar a orquestração do fluxo de trabalho para o Apache Airflow.

Este tópico explica como migrar do AWS Data Pipeline para opções alternativas. A opção escolhida depende do seu workload atual no AWS Data Pipeline. Você pode migrar casos de uso típicos do AWS Data Pipeline para o AWS Glue, o AWS Step Functions ou o Amazon MWAA.

Migrar workloads para o AWS Glue

O AWS Glue é um serviço de integração de dados com tecnologia sem servidor que facilita aos usuários de analytics a descoberta, preparação, transferência e integração de dados de várias fontes. Inclui ferramentas para criação, execução de trabalhos e orquestração de fluxos de trabalho. Com o AWS Glue, você pode detectar e se conectar a mais de 70 fontes de dados diversas e gerenciar seus dados em um catálogo de dados centralizado. Você pode criar, executar e monitorar visualmente pipelines de extração, transformação e carregamento (ETL) para carregar dados em seus data lakes. Além disso, é possível pesquisar e consultar imediatamente os dados catalogados usando o Amazon Athena, o Amazon EMR e o Amazon Redshift Spectrum.

Recomendamos migrar seu workload do AWS Data Pipeline para o AWS Glue quando:

  • Você estiver procurando um serviço de integração de dados com tecnologia sem servidor que ofereça suporte para várias fontes de dados, interfaces de criação, incluindo editores visuais e notebooks, e recursos avançados de gerenciamento de dados, como qualidade de dados e detecção de dados sensíveis.

  • Seu workload puder ser migrado para workloads do AWS Glue, trabalhos (em Python ou Apache Spark) e crawlers (por exemplo, seu pipeline existente for construído com base no Apache Spark).

  • Você precisar de uma plataforma única que possa lidar com todos os aspectos do seu pipeline de dados, incluindo ingestão, processamento, transferência, testes de integridade e verificações de qualidade.

  • Seu pipeline existente tiver sido criado a partir de um modelo predefinido no console do AWS Data Pipeline, como a exportação de uma tabela do DynamoDB para o Amazon S3, e você estiver procurando o modelo do mesmo propósito.

  • Seu workload não depender de uma aplicação específica do ecossistema Hadoop, como o Apache Hive.

  • Seu workload não exigir orquestração de servidores on-premises.

O AWS cobra uma taxa por hora, cobrada por segundo, para crawlers (descoberta de dados) e trabalhos de ETL (processamento e carga de dados). AWS Glue O Studio é um mecanismo de orquestração integrado para recursos do AWS Glue e é oferecido sem custo adicional. Para saber mais sobre a definição de preço, consulte Definição de preço da AWS Glue.

Migrar workloads para o AWS Step Functions

O AWS Step Functions é um serviço de orquestração com tecnologia sem servidor que permite criar fluxos de trabalho para suas aplicações essenciais aos negócios. Com o Step Functions, você usa um editor visual para criar fluxos de trabalho e integrar-se diretamente a mais de 11.000 ações para mais de 250 serviços da AWS, como AWS Lambda, Amazon EMR, DynamoDB e muito mais. Você pode usar o Step Functions para orquestrar pipelines de processamento de dados, lidar com erros e trabalhar com os limites de controle de utilização nos serviços subjacentes da AWS. Você pode criar fluxos de trabalho que processam e publicam modelos de machine learning, orquestram microsserviços e controlam serviços da AWS, como o AWS Glue, para criar fluxos de trabalho de extração, transformação e carregamento (ETL). Você também pode criar fluxos de trabalho automatizados e de longa duração para aplicações que exigem interação humana.

Assim como o AWS Data Pipeline, o AWS Step Functions é um serviço totalmente gerenciado fornecido pela AWS. Você não precisará gerenciar a infraestrutura, aplicar patches em workers, gerenciar atualizações da versão do sistema operacional ou similares.

Recomendamos migrar seu workload do AWS Data Pipeline para o AWS Step Functions quando:

  • Você estiver procurando um serviço de orquestração de fluxo de trabalho com tecnologia sem servidor e altamente disponível.

  • Você estiver procurando uma solução econômica que faça a cobrança pela granularidade da execução de uma única tarefa.

  • Seus workloads estiverem orquestrando tarefas para vários outros serviços da AWS, como Amazon EMR, Lambda, AWS Glue ou DynamoDB.

  • Você estiver procurando uma solução low-code que venha com um designer visual de arrastar e soltar para criação de fluxo de trabalho e que não exija o aprendizado de novos conceitos de programação.

  • Você estiver procurando um serviço que forneça integrações com mais de 250 outros serviços da AWS, abrangendo mais de 11.000 ações prontas para uso, além de permitir integrações com atividades e serviços personalizados que não sejam da AWS.

Tanto o AWS Data Pipeline quanto o Step Functions usam o formato JSON para definir fluxos de trabalho. Isso permite armazenar seus fluxos de trabalho no controle de origem, gerenciar versões, controlar o acesso e automatizar com CI/CD. O Step Functions está usando uma sintaxe chamada Amazon State Language, que é totalmente baseada em JSON e permite uma transição perfeita entre as representações textuais e visuais do fluxo de trabalho.

Com o Step Functions, você pode escolher a mesma versão do Amazon EMR que você está usando atualmente no AWS Data Pipeline.

Para migrar atividades em recursos gerenciados do AWS Data Pipeline, você pode usar a integração de serviços do AWS SDK no Step Functions para automatizar o provisionamento e a limpeza de recursos.

Para migrar atividades em servidores on-premises, instâncias do EC2 gerenciadas pelo usuário ou um cluster do EMR gerenciado pelo usuário, você pode instalar um agente SSM na instância. Você pode iniciar o comando por meio do Run Command do AWS Systems Manager a partir do Step Functions. Você também pode iniciar a máquina de estado a partir da programação definida no Amazon EventBridge.

O AWS Step Functions tem dois tipos de fluxos de trabalho: padrão e expressos. Para fluxos de trabalho padrão, a cobrança é efetuada com base no número de transições de estado necessárias para executar sua aplicação. Para fluxos de trabalho expressos, a cobrança é efetuada com base no número de solicitações do seu fluxo de trabalho e na duração. Saiba mais sobre preços em Definição de preços do AWS Step Functions.

Migrar workloads para o Amazon MWAA

O Amazon MWAA (Managed Workflows for Apache Airflow) é um serviço de orquestração gerenciado para o Apache Airflow que facilita a configuração e a operação de data pipelines de ponta a ponta na nuvem em escala. O Apache Airflow é uma ferramenta de código aberto usada para criar, agendar e monitorar por meio de programação sequências de processos e tarefas chamadas de “fluxos de trabalho”. Com o Amazon MWAA, você pode usar o Airflow e a linguagem de programação Python para criar fluxos de trabalho sem precisar gerenciar a infraestrutura subjacente para fins de escalabilidade, disponibilidade e segurança. O Amazon MWAA escala automaticamente sua capacidade de execução de fluxo de trabalho para atender às suas necessidades e é integrado aos serviços de segurança da AWS para ajudar a fornecer acesso rápido e seguro aos seus dados.

Assim como o AWS Data Pipeline, o Amazon MWAA é um serviço totalmente gerenciado fornecido pela AWS. Embora seja necessário aprender vários novos conceitos específicos desses serviços, não é necessário gerenciar a infraestrutura, aplicar patches em workers, gerenciar atualizações de versões do sistema operacional ou similares.

Recomendamos migrar seus workloads do AWS Data Pipeline para o Amazon MWAA quando:

  • Você estiver procurando um serviço gerenciado e altamente disponível para orquestrar fluxos de trabalho escritos em Python.

  • Você desejar fazer a transição para uma tecnologia de código aberto totalmente gerenciada e amplamente adotada, como o Apache Airflow, para máxima portabilidade.

  • Você precisar de uma plataforma única que possa lidar com todos os aspectos do seu pipeline de dados, incluindo ingestão, processamento, transferência, testes de integridade e verificações de qualidade.

  • Você estiver procurando um serviço projetado para orquestração de pipeline de dados com recursos como interface avançada para observabilidade, reinicializações para fluxos de trabalho com falha, preenchimentos e novas tentativas de tarefas.

  • Você estiver procurando um serviço que venha com mais de 800 operadores e sensores pré-construídos, abrangendo AWS e serviços não AWS.

Os fluxos de trabalho do Amazon MWAA são definidos como Directed Acyclic Graphs (DAGs – Gráficos acíclicos dirigidos) usando Python, então você também pode tratá-los como código-fonte. A estrutura Python extensível do Airflow permite que você crie fluxos de trabalho conectados a praticamente qualquer tecnologia. Ele vem com uma interface de usuário avançada para visualizar e monitorar fluxos de trabalho e pode ser facilmente integrado aos sistemas de controle de versão para automatizar o processo de CI/CD.

Com o Amazon MWAA, você pode escolher a mesma versão do Amazon EMR que você está usando atualmente na AWS Data Pipeline.

A AWS cobra pelo tempo em que seu ambiente Airflow é executado, além de qualquer ajuste de escala automático adicional para fornecer mais capacidade de trabalho ou servidor web. Saiba mais sobre preços no Fluxos de trabalho gerenciados da Amazon para o Apache Airflow.

Mapear conceitos

A tabela a seguir contém o mapeamento dos principais conceitos usados pelos serviços. Isso ajudará aqueles familiarizados com o Data Pipeline a entender a terminologia do Step Functions e do MWAA.

Amostras

As seções a seguir listam exemplos públicos que você pode consultar para migrar de AWS Data Pipeline para serviços individuais. Você pode citá-los como exemplos e criar seu próprio pipeline nos serviços individuais atualizando e testando o pipeline com base no seu caso de uso.

Exemplos do AWS Glue

A lista a seguir contém exemplos de implementações para os casos de uso mais comuns de AWS Data Pipeline com AWS Glue.

Exemplos de Step Functions do AWS

A lista a seguir contém exemplos de implementações para os casos de uso mais comuns do AWS Data Pipeline com Step Functions do AWS.

Veja tutoriais adicionais e exemplos de projetos para usar o Step Functions do AWS.

Amostras do Amazon MWAA

A lista a seguir contém exemplos de implementações para os casos de uso mais comuns do AWS Data Pipeline com o Amazon MWAA.

Veja tutoriais adicionais e exemplos de projetos para usar o Amazon MWAA.