Che cos'è Amazon Managed Workflows per Apache Airflow? - Amazon Managed Workflows for Apache Airflow

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Che cos'è Amazon Managed Workflows per Apache Airflow?

Usa Amazon Managed Workflows for Apache Airflow, un servizio di orchestrazione gestito per Apache Airflow, per configurare e gestire pipeline di dati nel cloud su larga scala. Apache Airflow è uno strumento open source utilizzato per creare, pianificare e monitorare in modo programmatico sequenze di processi e attività denominate flussi di lavoro.

Con Amazon MWAA, puoi usare Apache Airflow e Python per creare flussi di lavoro senza dover gestire l'infrastruttura sottostante per scalabilità, disponibilità e sicurezza. Amazon MWAA ridimensiona automaticamente la capacità di esecuzione del flusso di lavoro per soddisfare le tue esigenze e si integra con i servizi AWS di sicurezza per aiutarti a fornire un accesso rapido e sicuro ai tuoi dati.

Funzionalità

Esamina le seguenti funzionalità per scoprire come Amazon MWAA può semplificare la gestione dei flussi di lavoro Apache Airflow.

  • Configurazione automatica del flusso d'aria: configura rapidamente Apache Airflow scegliendo una versione di Apache Airflow quando crei un ambiente Amazon MWAA. Amazon MWAA configura Apache Airflow per te utilizzando la stessa interfaccia utente Apache Airflow e lo stesso codice open source che puoi scaricare da Internet.

  • Scalabilità automatica: ridimensiona automaticamente Apache Airflow Workers impostando il numero minimo e massimo di Worker in esecuzione nel tuo ambiente. Amazon MWAA monitora i Worker nel tuo ambiente e utilizza il componente di scalabilità automatica per aggiungere Workers per soddisfare la domanda, fino a raggiungere il numero massimo di Worker da te definito.

  • Autenticazione integrata: abilita l'autenticazione e l'autorizzazione basate sui ruoli per il tuo server Web Apache Airflow definendo le politiche di controllo degli accessi in (IAM). AWS Identity and Access Management Gli Apache Airflow Workers assumono queste politiche per un accesso sicuro ai servizi. AWS

  • Sicurezza integrata: gli Apache Airflow Workers and Scheduler vengono eseguiti nell'Amazon VPC di Amazon MWAA. Inoltre, i dati vengono crittografati automaticamente utilizzando AWS Key Management Service, quindi l'ambiente è sicuro per impostazione predefinita.

  • Modalità di accesso pubblico o privato: accedi al tuo server Web Apache Airflow utilizzando una modalità di accesso privata o pubblica. La modalità di accesso alla rete pubblica utilizza un endpoint VPC per il server Web Apache Airflow accessibile tramite Internet. La modalità di accesso alla rete privata utilizza un endpoint VPC per il server Web Apache Airflow accessibile nel VPC. In entrambi i casi, l'accesso per gli utenti di Apache Airflow è controllato dalla politica di controllo degli accessi definita in AWS Identity and Access Management (IAM) e SSO. AWS

  • Aggiornamenti e patch semplificati: Amazon MWAA fornisce periodicamente nuove versioni di Apache Airflow. Il team di Amazon MWAA aggiornerà e correggerà le immagini per queste versioni.

  • Monitoraggio del flusso di lavoro: visualizza i log di Apache Airflow e le metriche di Apache Airflow in CloudWatch Amazon per identificare i ritardi nelle attività di Apache Airflow o gli errori del flusso di lavoro senza la necessità di strumenti di terze parti aggiuntivi. Amazon MWAA invia automaticamente i parametri di ambiente e, se abilitato, i log ad Apache Airflow. CloudWatch

  • AWS integrazione: Amazon MWAA supporta integrazioni open source con Amazon Athena, Amazon AWS Batch, Amazon CloudWatch DynamoDB, Amazon AWS DataSync EMR, Amazon EKS, Amazon Data Firehose, AWS Fargate Amazon AWS Glue AWS Lambda Redshift, Amazon SQS, Amazon SNS, Amazon AI e Amazon S3, oltre a centinaia di funzionalità integrate e operatori e sensori creati dalla SageMaker comunità.

  • Flotte di lavoratori: Amazon MWAA offre supporto per l'utilizzo di container per scalare la flotta di lavoratori su richiesta e ridurre le interruzioni dello scheduler utilizzando Amazon ECS on. AWS Fargate Sono supportati gli operatori che richiamano attività sui contenitori Amazon ECS e gli operatori Kubernetes che creano ed eseguono pod su un cluster Kubernetes.

Architettura

Tutti i componenti contenuti nella confezione esterna (nell'immagine seguente) vengono visualizzati come un unico ambiente Amazon MWAA nel tuo account. Apache Airflow Scheduler e Workers sono AWS Fargate contenitori che si connettono alle sottoreti private di Amazon VPC per il tuo ambiente. Ogni ambiente ha il proprio metadatabase Apache Airflow gestito da AWS che è accessibile ai container Scheduler e Workers Fargate tramite un endpoint VPC protetto privatamente.

Amazon CloudWatch, Amazon S3, Amazon SQS e Amazon sono separati da Amazon MWAA AWS KMS e devono essere accessibili dai container Apache Airflow Scheduler e Workers in the Fargate.

È possibile accedere al server Web Apache Airflow tramite Internet selezionando la modalità di accesso Apache Airflow alla rete pubblica o all'interno del VPC selezionando la modalità di accesso Apache Airflow alla rete privata. In entrambi i casi, l'accesso per gli utenti di Apache Airflow è controllato dalla politica di controllo degli accessi definita in (IAM). AWS Identity and Access Management

Nota

Più Apache Airflow Scheduler sono disponibili solo con Apache Airflow v2 e versioni successive. Scopri di più sul ciclo di vita delle attività di Apache Airflow su Concepts nella guida di riferimento di Apache Airflow.

Questa immagine mostra l'architettura di un ambiente Amazon MWAA.

Integrazione

La community open source di Apache Airflow, attiva e in crescita, fornisce operatori (plug-in che semplificano le connessioni ai servizi) che consentono l'integrazione di Apache Airflow con i servizi. AWS Ciò include servizi come Amazon S3, Amazon Redshift, Amazon AWS Batch EMR SageMaker e Amazon AI, oltre a servizi su altre piattaforme cloud.

L'uso di Apache Airflow con Amazon MWAA supporta completamente l'integrazione con AWS servizi e strumenti di terze parti popolari come Apache Hadoop, Presto, Hive e Spark per eseguire attività di elaborazione dei dati. Amazon MWAA si impegna a mantenere la compatibilità con l'API Apache Airflow e Amazon MWAA intende fornire integrazioni affidabili ai AWS servizi e renderli disponibili alla community, oltre a partecipare allo sviluppo di funzionalità della community.

Per il codice di esempio, consulta Esempi di codice per Amazon Managed Workflows for Apache Airflow.

Versioni supportate

Amazon MWAA supporta più versioni di Apache Airflow. Per ulteriori informazioni sulle versioni di Apache Airflow supportate e sui componenti di Apache Airflow inclusi in ciascuna versione, consulta. Versioni di Apache Airflow su Amazon Managed Workflows per Apache Airflow

Fasi successive