O que é Amazon Managed Workflows for Apache Airflow? - Amazon Managed Workflows for Apache Airflow

O que é Amazon Managed Workflows for Apache Airflow?

O Amazon Managed Workflows para Apache Airflow é um serviço gerenciado para o Apache Airflow para configurar e operar pipelines de dados na nuvem em escala. O Apache Airflow é uma ferramenta de código aberto usada para criar, agendar e monitorar fluxos de trabalho.

Com o Amazon MWAA, é possível usar o Apache Airflow e o Python para criar fluxos de trabalho sem precisar gerenciar a infraestrutura para fins de escalabilidade, disponibilidade e segurança. O Amazon MWAA é escalado automaticamente para atender às suas necessidades de fluxo de trabalho. Ele se integra aos serviços de segurança da AWS para permitir acesso rápido e seguro aos dados.

Atributos

Leia os atributos a seguir para saber como o Amazon MWAA pode simplificar o gerenciamento de seus fluxos de trabalho do Apache Airflow.

  • Configuração automática do Airflow: configure rapidamente o Apache Airflow escolhendo uma versão do Apache Airflow ao criar um ambiente do Amazon MWAA. O Amazon MWAA configura o Apache Airflow para você usando a mesma interface de usuário e código aberto do Apache Airflow disponível na internet.

  • Escalabilidade automática – Escale automaticamente os operadores do Apache Airflow (os recursos computacionais que executam suas tarefas) definindo limites mínimos e máximos. O Amazon MWAA monitora os operadores em seu ambiente e usa seu componente de ajuste de escala automático para adicionar operadores para atender à demanda, até atingir o número máximo que você definiu.

  • Autenticação integrada: habilite a autenticação e a autorização baseadas em perfil para seu servidor Web do Apache Airflow definindo as políticas de controle de acesso no AWS Identity and Access Management (IAM). Os operadores do Apache Airflow adotam essas políticas para o acesso seguro aos serviços da AWS.

  • Segurança integrada: os operadores e agendadores do Apache Airflow são executados na Amazon VPC do Amazon MWAA. Os dados também são criptografados automaticamente usando AWS Key Management Service, portanto seu ambiente é seguro por padrão.

  • Modos de acesso público ou privado: acesse seu servidor Web do Apache Airflow usando um modo de acesso privado ou público. O modo de acesso à rede pública usa um endpoint da VPC para seu servidor Web do Apache Airflow que pode ser acessado pela internet. O modo de acesso à rede privada usa um endpoint da VPC para seu servidor Web do Apache Airflow que pode ser acessado em sua VPC. Nos dois casos, o acesso para seus usuários do Apache Airflow é controlado pela política de controle de acesso que você define no AWS Identity and Access Management (IAM) e pelo SSO da AWS.

  • Atualizações e patches simplificados: o Amazon MWAA fornece novas versões do Apache Airflow periodicamente. A equipe do Amazon MWAA atualizará e corrigirá as imagens para essas versões.

  • Monitoramento do fluxo de trabalho: acesse os logs do Apache Airflow e as métricas do Apache Airflow no Amazon CloudWatch para identificar atrasos nas tarefas do Apache Airflow ou erros no fluxo de trabalho sem a necessidade de ferramentas adicionais de terceiros. O Amazon MWAA envia automaticamente as métricas do ambiente e (se habilitado) os logs do Apache Airflow para o CloudWatch.

  • Integração da AWS: o Amazon MAA oferece suporte a integrações de código aberto com Amazon Athena, AWS Batch, Amazon CloudWatch, Amazon DynamoDB, AWS DataSync, Amazon EMR, AWS Fargate, Amazon EKS, Amazon Data Firehose, AWS Glue, AWS Lambda, Amazon Redshift, Amazon SQS, Amazon SNS, Amazon SageMaker AI e Amazon S3, bem como centenas de operadores e sensores integrados e criados pela comunidade.

  • Frotas de operadores: o Amazon MWAA oferece suporte ao uso de contêineres para escalar a frota de operadores sob demanda e reduzir as interrupções do programador usando o Amazon ECS em AWS Fargate. Há suporte para operadores que invocam tarefas em contêineres do Amazon ECS e operadores Kubernetes que criam e executam pods em um cluster Kubernetes.

Arquitetura

Todos os componentes contidos na caixa externa (na imagem a seguir) aparecem como um único ambiente do Amazon MWAA em sua conta. O agendador e os operadores do Apache Airflow são contêineres AWS Fargate que se conectam às sub-redes privadas na Amazon VPC do seu ambiente. Cada ambiente tem seu próprio banco de dados de metadados do Apache Airflow gerenciado pela AWS que pode ser acessado pelos contêineres Fargate do agendador e dos operadores por meio de um endpoint da VPC protegido de forma privada.

O Amazon CloudWatch, o Amazon S3, o Amazon SQS e o AWS KMS são separados do Amazon MWAA e precisam ser acessados dos agendadores e dos operadores do Apache Airflow nos contêineres do Fargate. Vários agendadores do Apache Airflow estão disponíveis apenas com o Apache Airflow v2 e versões superiores. Saiba mais sobre o ciclo de vida das tarefas do Apache Airflow em Conceitos no Guia de referência do Apache Airflow.

O servidor Web do Apache Airflow pode ser acessado pela internet selecionando o modo de acesso de rede pública do Apache Airflow ou dentro da sua VPC selecionando o modo de acesso de rede privada do Apache Airflow. Em ambos os casos, o acesso dos usuários do Apache Airflow é controlado pela política de controle de acesso que você define em AWS Identity and Access Management (IAM).

nota

Começando com o Apache Airflow v3, o servidor Web do Amazon MWAA também hospeda o servidor de API de execução do Apache Airflow.

A arquitetura de um ambiente do Amazon MWAA.

Integração

A comunidade ativa e crescente de código aberto do Apache Airflow fornece operadores (plug-ins que simplificam as conexões com os serviços) para que o Apache Airflow se integre aos serviços da AWS. Isso inclui serviços como o Amazon S3, o Amazon Redshift, o Amazon EMR, AWS Batch e o Amazon SageMaker AI, bem como serviços em outras plataformas da nuvem.

O uso do Apache Airflow com o Amazon MWAA oferece suporte total à integração com serviços da AWS e ferramentas populares de terceiros, como Apache Hadoop, Presto, Hive e Spark, para realizar tarefas de processamento de dados. O Amazon MWAA está comprometido em manter a compatibilidade com a API do Apache Airflow e o Amazon MWAA pretende fornecer integrações confiáveis aos serviços da AWS e disponibilizá-los para a comunidade, além de estar envolvido no desenvolvimento de atributos da comunidade.

Para ver um exemplo de código, consulte Exemplos de código para o Amazon Managed Workflows for Apache Airflow.

Versões compatíveis

O Amazon MWAA oferece suporte a várias versões do Apache Airflow. Para obter mais informações sobre as versões do Apache Airflow às quais oferecemos suporte e os componentes do Apache Airflow incluídos em cada versão, consulte Versões do Apache Airflow no Amazon Managed Workflows for Apache Airflow..

Próximas etapas