¿Qué es Amazon Managed Workflows para Apache Airflow? - Amazon Managed Workflows para Apache Airflow

¿Qué es Amazon Managed Workflows para Apache Airflow?

Use Amazon Managed Workflows para Apache Airflow, un servicio administrado para Apache Airflow, para configurar y operar canalizaciones de datos en la nube a escala. Apache Airflow es una herramienta de código abierto que se usa para crear, programar y supervisar flujos de trabajo.

Con Amazon MWAA, puede usar Apache Airflow y Python para crear flujos de trabajo sin tener que administrar la infraestructura subyacente para conseguir escalabilidad, disponibilidad y seguridad. Amazon MWAA se escala automáticamente para adaptarse a sus necesidades de flujo de trabajo. También se integra con los servicios de seguridad de AWS para permitir un acceso rápido y seguro a los datos.

Características

Consulte las siguientes características para obtener información sobre cómo Amazon MWAA puede simplificar la administración de sus flujos de trabajo de Apache Airflow.

  • Configuración automática de Airflow: configure rápidamente Apache Airflow eligiendo una versión de Apache Airflow al crear un entorno de Amazon MWAA. Amazon MWAA configura Apache Airflow mediante la misma interfaz de usuario de Apache Airflow y el mismo código abierto que puede descargar de Internet.

  • Escalado automático: escale automáticamente los procesos de trabajo de Apache Airflow (los recursos informáticos que ejecutan sus tareas) fijando límites mínimos y máximos. Amazon MWAA supervisa los procesos de trabajo de su entorno y usa su componente de escalado automático para añadir procesos de trabajo con el objetivo de satisfacer la demanda, hasta alcanzar el número máximo de procesos de trabajo que se haya definido.

  • Autenticación integrada: habilite la autenticación y la autorización basadas en roles para el servidor web de Apache Airflow definiendo las políticas de control de acceso en AWS Identity and Access Management (IAM). Los procesos de trabajo de Apache Airflow asumen estas políticas para brindar un acceso seguro a los servicios de AWS.

  • Seguridad integrada: los programadores y procesos de trabajo de Apache Airflow se ejecutan en Amazon VPC de Amazon MWAA. Los datos también se cifran automáticamente mediante AWS Key Management Service, por lo que su entorno es seguro de forma predeterminada.

  • Modos de acceso público o privado: acceda a su servidor web de Apache Airflow mediante un modo de acceso público o privado. El modo de acceso a la red pública usa un punto de conexión de VPC para el servidor web de Apache Airflow al que se puede acceder a través de Internet. El modo de acceso a la red privada usa un punto de conexión de VPC para el servidor web de Apache Airflow al que se puede acceder a través de su VPC. En ambos casos, el acceso de los usuarios a Apache Airflow se controla mediante la política de control de acceso que defina en AWS Identity and Access Management (IAM) y en el SSO de AWS.

  • Actualizaciones y revisiones simplificadas: Amazon MWAA proporciona nuevas versiones de Apache Airflow periódicamente. El equipo de Amazon MWAA actualizará y revisará las imágenes de estas versiones.

  • Supervisión del flujo de trabajo: consulte los registros de Apache Airflow y las métricas de Apache Airflow de Amazon CloudWatch para identificar los retrasos en las tareas de Apache Airflow o los errores de flujo de trabajo sin tener que usar otras herramientas externas. Amazon MWAA envía automáticamente las métricas del entorno y, si están habilitados, los registros de Apache Airflow a CloudWatch.

  • Integración de AWS: Amazon MWAA admite integraciones de código abierto con Amazon Athena, AWS Batch, Amazon CloudWatch, Amazon DynamoDB, AWS DataSync, Amazon EMR, AWS Fargate, Amazon EKS, Amazon Data Firehose, AWS Glue, AWS Lambda, Amazon Redshift, Amazon SQS, Amazon SNS, Amazon SageMaker AI y Amazon S3, así como cientos de operadores y sensores integrados y creados por la comunidad.

  • Flotas de procesos de trabajo: Amazon MWAA ofrece soporte para el uso de contenedores para ampliar la flota de procesos de trabajo bajo demanda y reducir la caída de programadores mediante Amazon ECS en AWS Fargate. Se admiten operadores que invoquen tareas en los contenedores de Amazon ECS y operadores de Kubernetes que creen y ejecuten pods en un clúster de Kubernetes.

Arquitectura

Todos los componentes incluidos en el cuadro exterior (en la imagen siguiente) aparecen como un único entorno de Amazon MWAA en su cuenta. El programador y los procesos de trabajo de Apache Airflow son contenedores de AWS Fargate que se conectan a las subredes privadas de la Amazon VPC de su entorno. Cada entorno tiene su propia base de metadatos de Apache Airflow administrada por AWS, a la que pueden acceder los contenedores de Fargate de programador y procesos de trabajo a través de un punto de conexión de VPC protegido de forma privada.

Amazon CloudWatch, Amazon S3, Amazon SQS y AWS KMS son independientes de Amazon MWAA y se debe poder acceder a ellos desde los programadores y procesos de trabajo de Apache Airflow en los contenedores de Fargate. Hay disponibles varios programadores de Apache Airflow solo en Apache Airflow v2 y versiones posteriores. Para más información sobre el ciclo de vida de las tareas de Apache Airflow en Conceptos, consulte la guía de referencia de Apache Airflow.

Se puede acceder al servidor web de Apache Airflow a través de Internet seleccionando el modo de acceso red pública de Apache Airflow o desde dentro de su VPC seleccionando el modo de acceso red privada de Apache Airflow. En ambos casos, el acceso de los usuarios a Apache Airflow se controla mediante la política de control de acceso que defina en AWS Identity and Access Management (IAM).

nota

A partir de Apache Airflow v3, el servidor web Amazon MWAA también aloja el servidor API de ejecución de Apache Airflow.

Arquitectura de un entorno de Amazon MWAA.

Integración

La activa y creciente comunidad de código abierto de Apache Airflow proporciona operadores (complementos que simplifican las conexiones a los servicios) para que Apache Airflow se integre con los servicios de AWS. Esto incluye servicios como Amazon S3, Amazon Redshift, Amazon EMR, AWS Batch y Amazon SageMaker AI, así como servicios en otras plataformas en la nube.

El uso de Apache Airflow con Amazon MWAA es totalmente compatible con servicios de AWS y herramientas populares de terceros, como Apache Hadoop, Presto, Hive y Spark, para llevar a cabo tareas de procesamiento de datos. Amazon MWAA se compromete a mantener la compatibilidad con la API de Apache Airflow y pretende proporcionar integraciones fiables a los servicios de AWS y ponerlos a disposición de la comunidad. Además, se compromete a participar en el desarrollo de características para la comunidad.

Para ver un ejemplo de código, consulte Códigos de ejemplo de Amazon Managed Workflows para Apache Airflow.

Versiones compatibles

Amazon MWAA admite varias versiones de Apache Airflow. Para obtener más información sobre las versiones de Apache Airflow que admitimos y los componentes de Apache Airflow incluidos en cada versión, consulte Versiones de Apache Airflow en Amazon Managed Workflows para Apache Airflow.

Siguientes pasos