Cómo añadir o actualizar DAG
Los gráficos acíclicos dirigidos (DAG) se definen dentro de un archivo de Python que define la estructura del DAG como código. Para cargar DAG en su entorno, puede usar la AWS CLI o la consola de Amazon S3. En esta página, se describen los pasos para añadir o actualizar los DAG de Apache Airflow en su entorno de Amazon Managed Workflows para Apache Airflow mediante la carpeta dags de su bucket de Amazon S3.
Secciones
Requisitos previos
Para poder llevar a cabo los pasos de esta página, necesitará lo siguiente.
-
Permisos: el administrador debe haber concedido a su Cuenta de AWS acceso a la política de control de acceso de AmazonMWAAFullConsoleAccess para su entorno. Además, su rol de ejecución debe permitir que su entorno de Amazon MWAA acceda a los recursos de AWS que utiliza su entorno.
-
Acceso: si tiene que acceder a los repositorios públicos para instalar dependencias directamente en el servidor web, su entorno debe estar configurado con acceso a un servidor web de red pública. Para obtener más información, consulta Modos de acceso de Apache Airflow.
-
Configuración de Amazon S3: el bucket de Amazon S3 que se utiliza para almacenar los DAG, los complementos personalizados en
plugins.zipy las dependencias de Python enrequirements.txtdeben estar configurados con el acceso público bloqueado y el control de versiones activado.
Funcionamiento
Un gráfico acíclico dirigido (DAG) se define dentro de un archivo de Python que define la estructura del DAG como código. Consta de lo siguiente:
-
Una definición de DAG
. -
Operadores
que describen cómo ejecutar el DAG y las tareas que se van a ejecutar. -
Relaciones entre los operadores
que describen el orden en el que se ejecutan las tareas.
Para ejecutar una plataforma Apache Airflow en un entorno Amazon MWAA, debe copiar la definición del DAG en la carpeta dags del bucket de almacenamiento. Por ejemplo, la carpeta DAG de su bucket de almacenamiento debe tener el siguiente aspecto:
ejemplo Carpeta de DAG
dags/ └ dag_def.py
Amazon MWAA sincroniza automáticamente los objetos nuevos y modificados de su bucket de Amazon S3 con la carpeta /usr/local/airflow/dags del programador y los contenedores de procesos de trabajo de Amazon MWAA cada 30 segundos, lo que preserva la jerarquía de archivos de la fuente de Amazon S3, independientemente del tipo de archivo. El tiempo que tardan los nuevos DAG en aparecer en la UI de Apache Airflow depende de scheduler.dag_dir_list_interval. Los cambios en los DAG existentes se recogerán en el siguiente ciclo de procesamiento de los DAG.
nota
No es necesario incluir el archivo de configuración airflow.cfg en la carpeta del DAG. Puede anular las configuraciones predeterminadas de Apache Airflow desde la consola de Amazon MWAA. Para obtener más información, consulta Uso de las opciones de configuración de Apache Airflow en Amazon MWAA.
¿Qué ha cambiado?
Para revisar los cambios de una versión específica de Apache Airflow, consulte la página de notas de la versión
-
Configuraciones de Apache Airflow v3: referencia de configuración
-
Información sobre la interfaz pública de Apache Airflow v2: Interfaz pública de Airflow
Pruebas de los DAG mediante la utilidad de la CLI de Amazon MWAA
-
La utilidad de la interfaz de la línea de comandos (CLI) replica entornos en Amazon Managed Workflows para Apache Airflow de forma local.
-
La CLI crea localmente una imagen de contenedor de Docker similar a una imagen de producción de Amazon MWAA. Esto le permite ejecutar un entorno local de Apache Airflow para desarrollar y probar los DAG, los complementos personalizados y las dependencias antes de implementarlos en Amazon MWAA.
-
Para ejecutar la CLI, consulte aws-mwaa-docker-images
en GitHub.
Cómo cargar el código DAG en Amazon S3
Puede usar la consola de Amazon S3 o la AWS Command Line Interface (AWS CLI) para cargar un código DAG a su bucket de Amazon S3. En los siguientes pasos se supone que está cargando el código (.py) a una carpeta con el nombre dags en su bucket de Amazon S3.
Uso de AWS CLI
La AWS Command Line Interface (AWS CLI) es una herramienta de código abierto que le permite interactuar con los servicios de AWS mediante el uso de comandos en el shell de la línea de comandos. Para completar los pasos de esta página, necesita lo siguiente:
Carga mediante la AWS CLI
-
Use el siguiente comando para obtener una lista de todos los buckets de Amazon S3.
aws s3 ls -
Utilice el comando siguiente para enumerar los archivos y las carpetas del bucket de Amazon S3 para su entorno.
aws s3 ls s3://YOUR_S3_BUCKET_NAME -
El siguiente comando carga el archivo
dag_def.pyen una carpetadags.aws s3 cp dag_def.py s3://amzn-s3-demo-bucket/dags/Si aún no existe una carpeta con el nombre
dagsen su bucket de Amazon S3, este comando crea la carpetadagsy carga el archivo con el nombredag_def.pyen la nueva carpeta.
Uso de la consola de Amazon S3
La consola de Amazon S3 es una interfaz de usuario basada en la web que le permite crear y administrar los recursos de su bucket de Amazon S3. En los siguientes pasos se supone que tiene una carpeta DAG denominada dags.
Carga del contenido usando la consola de Amazon S3
-
Abra la página Entornos
en la consola de Amazon MWAA. -
Seleccione un entorno.
-
Seleccione el enlace del bucket de S3 en el panel de códigos de DAG en S3 para abrir el bucket de almacenamiento en la consola.
-
Elija la carpeta
dags. -
Seleccione Cargar.
-
Elija Añadir archivo.
-
Seleccione la copia local de su
dag_def.py, elija Cargar.
Especificación de la ruta a su carpeta DAG en la consola Amazon MWAA (la primera vez)
En los pasos siguientes, se supone que está especificando la ruta de una carpeta del bucket de Amazon S3 denominada dags.
-
Abra la página Entornos
en la consola de Amazon MWAA. -
Elija el entorno en el que desee ejecutar los DAG.
-
Seleccione Editar.
-
En el panel DAG code in Amazon S3 (Código DAG en Amazon S3), elija Browse S3 (Navegar en S3) junto al campo DAG folder (Carpeta de DAG).
-
Seleccione su carpeta
dags. -
Seleccione Elegir.
-
Seleccione Siguiente, Actualizar entorno.
Visualización de cambios en la UI de Apache Airflow
Necesita permisos de Política de acceso a la interfaz de usuario de Apache Airflow: AmazonMWAAWebServerAccess para su cuenta de Cuenta de AWS en AWS Identity and Access Management (IAM) para ver la UI de Apache Airflow.
Pasos para acceder a la interfaz de usuario de Apache Airflow
-
Abra la página Entornos
en la consola de Amazon MWAA. -
Seleccione un entorno.
-
Elija Abrir interfaz de usuario de Airflow.
Siguientes pasos
Pruebe sus DAG, complementos personalizados y dependencias de Python de forma local con aws-mwaa-docker-images