Häufig gestellte Fragen zu Amazon MWAA - Amazon Managed Workflows für Apache Airflow

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Häufig gestellte Fragen zu Amazon MWAA

Auf dieser Seite werden häufig gestellte Fragen beschrieben, auf die Sie bei der Verwendung von Amazon Managed Workflows für Apache Airflow stoßen könnten.

Inhalt

Unterstützte Versionen

Was unterstützt Amazon MWAA für Apache Airflow v2?

Informationen darüber, was Amazon MWAA unterstützt, finden Sie unter. Apache-Airflow-Versionen in Amazon Managed Workflows for Apache Airflow

Welche Python-Version kann ich verwenden?

Die folgenden Apache Airflow-Versionen werden von Amazon Managed Workflows for Apache Airflow unterstützt.

Anmerkung
  • Mit Wirkung zum 30. Dezember 2025 wird Amazon MWAA die Unterstützung für die Apache Airflow Airflow-Versionen v2.4.3, v2.5.1 und v2.6.3 einstellen. Weitere Informationen finden Sie unter Apache Airflow Airflow-Versionsunterstützung und häufig gestellte Fragen.

  • Ab Apache Airflow v2.2.2 unterstützt Amazon MWAA die Installation von Python-Anforderungen, Provider-Paketen und benutzerdefinierten Plugins direkt auf dem Apache Airflow Airflow-Webserver.

  • Ab Apache Airflow v2.7.2 muss Ihre Anforderungsdatei eine Erklärung enthalten. --constraint Wenn Sie keine Einschränkung angeben, gibt Amazon MWAA eine für Sie an, um sicherzustellen, dass die in Ihren Anforderungen aufgeführten Pakete mit der Version von Apache Airflow kompatibel sind, die Sie verwenden.

    Weitere Informationen zum Einrichten von Einschränkungen in Ihrer Anforderungsdatei finden Sie unter Python-Abhängigkeiten installieren.

Weitere Informationen zur Migration Ihrer selbstverwalteten Apache Airflow Airflow-Bereitstellungen oder zur Migration einer vorhandenen Amazon MWAA-Umgebung, einschließlich Anweisungen zur Sicherung Ihrer Metadatendatenbank, finden Sie im Amazon MWAA-Migrationshandbuch.

Anwendungsfälle

Kann ich Amazon MWAA mit Amazon SageMaker Unified Studio verwenden?

Ja. Mit einem Amazon SageMaker Unified Studio-Workflow können Sie eine Reihe von Aufgaben in Amazon SageMaker Unified Studio einrichten und ausführen. Amazon SageMaker Unified Studio-Workflows verwenden Apache Airflow, um Datenverarbeitungsverfahren zu modellieren und Ihre Amazon SageMaker Unified Studio-Codeartefakte zu orchestrieren. Weitere Informationen finden Sie im Abschnitt Workflows. Weitere Informationen zu Amazon SageMaker finden Sie unter Was ist Amazon SageMaker?

Wann kann ich AWS Step Functions vs. verwenden Amazon MWAA?

  1. Sie können Step Functions verwenden, um einzelne Kundenbestellungen zu bearbeiten, da Step Functions skaliert werden kann, um die Nachfrage nach einer Bestellung oder einer Million Bestellungen zu decken.

  2. Wenn Sie über Nacht einen Workflow ausführen, der die Bestellungen des Vortages verarbeitet, können Sie Step Functions oder Amazon MWAA verwenden. Amazon MWAA bietet Ihnen eine Open-Source-Option, mit der Sie den Workflow von den von Ihnen verwendeten AWS Ressourcen abstrahieren können.

Spezifikationen für die Umgebung

Wie viel Aufgabenspeicher steht jeder Umgebung zur Verfügung?

Der Aufgabenspeicher ist auf 20 GB begrenzt und wird durch Amazon ECS Fargate 1.4 spezifiziert. Die Größe des Arbeitsspeichers wird durch die von Ihnen angegebene Umgebungsklasse bestimmt. Weitere Informationen zu Umgebungsklassen finden Sie unterKonfiguration der Amazon MWAA-Umgebungsklasse.

Welches Standardbetriebssystem wird für Amazon MWAA-Umgebungen verwendet?

Amazon MWAA-Umgebungen werden auf Instances erstellt, auf denen Amazon Linux 2 für Versionen 2.6 und älter ausgeführt wird, und auf Instances, auf denen Amazon Linux 2023 für Versionen 2.7 und höher ausgeführt wird.

Kann ich ein benutzerdefiniertes Image für meine Amazon MWAA-Umgebung verwenden?

Benutzerdefinierte Bilder werden nicht unterstützt. Amazon MWAA verwendet Images, die auf Amazon Linux AMI basieren. Amazon MWAA installiert die zusätzlichen Anforderungen, indem es die in der Datei requirements.txt angegebenen Anforderungen erfüllt, die Sie dem Amazon S3 S3-Bucket für die Umgebung hinzufügen. pip3 -r install

Ist Amazon MWAA HIPAA-konform?

Amazon MWAA ist nach dem Health Insurance Portability and Accountability Act (HIPAA) berechtigt. Wenn Sie über einen HIPAA Business Associate Addendum (BAA) verfügen, können Sie Amazon MWAA für Workflows verwenden AWS, die geschützte Gesundheitsinformationen (PHI) in Umgebungen verarbeiten, die am oder nach dem 14. November 2022 erstellt wurden.

Unterstützt Amazon MWAA Spot-Instances?

Amazon MWAA unterstützt derzeit keine EC2 On-Demand-Amazon-Spot-Instance-Typen für Apache Airflow. Eine Amazon MWAA-Umgebung kann jedoch Spot-Instances beispielsweise auf Amazon EMR und Amazon auslösen. EC2

Unterstützt Amazon MWAA eine benutzerdefinierte Domain?

Um eine benutzerdefinierte Domain für Ihren Amazon MWAA-Hostnamen verwenden zu können, gehen Sie wie folgt vor:

  • Für Amazon MWAA-Bereitstellungen mit Zugriff auf öffentliche Webserver können Sie Amazon CloudFront mit Lambda @Edge verwenden, um den Datenverkehr in Ihre Umgebung zu leiten und einen benutzerdefinierten Domainnamen zuzuordnen. CloudFront Weitere Informationen und ein Beispiel für die Einrichtung einer benutzerdefinierten Domain für eine öffentliche Umgebung finden Sie im Beispiel Amazon MWAA Custom Domain for Public Web Server im Amazon MWAA-Beispiel-Repository. GitHub

  • Informationen zu Amazon MWAA-Bereitstellungen mit privatem Webserverzugriff finden Sie unter. Einrichtung einer benutzerdefinierten Domain für den Apache Airflow Webserver

Kann ich per SSH auf meine Umgebung zugreifen?

SSH wird in einer Amazon MWAA-Umgebung zwar nicht unterstützt, es ist jedoch möglich, eine DAG zu verwenden, um Bash-Befehle mit dem auszuführen. BashOperator Beispiel:

from airflow import DAG from airflow.operators.bash_operator import BashOperator from airflow.utils.dates import days_ago with DAG(dag_id="any_bash_command_dag", schedule_interval=None, catchup=False, start_date=days_ago(1)) as dag: cli_command = BashOperator( task_id="bash_command", bash_command="{{ dag_run.conf['command'] }}" )

Um die DAG in der Apache Airflow Airflow-Benutzeroberfläche auszulösen, verwenden Sie:

{ "command" : "your bash command"}

Warum ist eine selbstreferenzierende Regel für die VPC-Sicherheitsgruppe erforderlich?

Wenn Sie eine Regel mit Selbstreferenzierung erstellen, beschränken Sie die Quelle auf dieselbe Sicherheitsgruppe in der VPC, und sie ist nicht für alle Netzwerke geöffnet. Weitere Informationen finden Sie unter. Sicherheit in Ihrer VPC auf Amazon MWAA

Kann ich Umgebungen in IAM vor verschiedenen Gruppen verbergen?

Sie können den Zugriff einschränken AWS Identity and Access Management, indem Sie einen Umgebungsnamen angeben. Die Zugriffsfilterung ist in der AWS Konsole jedoch nicht verfügbar. Wenn ein Benutzer eine Umgebung anzeigen kann, kann er alle Umgebungen anzeigen.

Kann ich temporäre Daten auf dem Apache Airflow Worker speichern?

Ihre Apache Airflow Operators können temporäre Daten über die Arbeiter speichern. Apache Airflow Airflow-Mitarbeiter können auf temporäre Dateien in den /tmp Fargate-Containern für Ihre Umgebung zugreifen.

Anmerkung

Der gesamte Aufgabenspeicher ist laut Amazon ECS Fargate 1.4 auf 20 GB begrenzt. Es gibt keine Garantie dafür, dass nachfolgende Aufgaben auf derselben Fargate-Container-Instance ausgeführt werden, die möglicherweise einen anderen /tmp Ordner verwendet.

Kann ich mehr als 25 Apache Airflow Airflow-Worker angeben?

Ja. Sie können zwar bis zu 25 Apache Airflow Airflow-Worker auf der Amazon MWAA-Konsole angeben, aber Sie können bis zu 50 in einer Umgebung konfigurieren, indem Sie eine Kontingenterhöhung beantragen. Weitere Informationen finden Sie unter Eine Kontingenterhöhung beantragen.

Unterstützt Amazon MWAA gemeinsam genutzte Amazon VPCs - oder gemeinsame Subnetze?

Amazon MWAA unterstützt keine gemeinsamen Amazon VPCs - oder geteilten Subnetze. Die Amazon-VPC, die Sie beim Erstellen einer Umgebung auswählen, muss dem Konto gehören, das versucht, die Umgebung zu erstellen. Sie können jedoch Traffic von einer Amazon VPC im Amazon MWAA-Konto an eine gemeinsam genutzte VPC weiterleiten. Weitere Informationen und ein Beispiel für die Weiterleitung von Datenverkehr an eine gemeinsam genutzte Amazon VPC finden Sie unter Zentralisiertes ausgehendes Routing ins Internet im Amazon VPC Transit Gateways Guide.

Kann ich benutzerdefinierte Amazon SQS SQS-Warteschlangen erstellen oder integrieren, um die Aufgabenausführung und Workflow-Orchestrierung in Apache Airflow zu verwalten?

Nein, Sie können keine benutzerdefinierten Amazon SQS-Warteschlangen in Amazon MWAA erstellen, ändern oder verwenden. Das liegt daran, dass Amazon MWAA automatisch eine eigene Amazon SQS SQS-Warteschlange für jede Amazon MWAA-Umgebung bereitstellt und verwaltet.

Metriken

Welche Kennzahlen werden verwendet, um zu bestimmen, ob Mitarbeiter skaliert werden sollten?

Amazon MWAA überwacht den QueuedTasksund RunningTasksin, CloudWatch um festzustellen, ob Apache Airflow Airflow-Worker in Ihrer Umgebung skaliert werden sollten. Weitere Informationen finden Sie unter. Überwachung und Metriken für Amazon Managed Workflows for Apache Airflow

Kann ich benutzerdefinierte Metriken in erstellen CloudWatch?

Nicht auf der CloudWatch Konsole. Sie können jedoch eine DAG erstellen, in die benutzerdefinierte Messwerte geschrieben CloudWatch werden. Weitere Informationen finden Sie unter Verwenden einer DAG zum Schreiben benutzerdefinierter Metriken in CloudWatch.

DAGs, Operatoren, Verbindungen und andere Fragen

Kann ich das benutzenPythonVirtualenvOperator?

Das PythonVirtualenvOperator wird auf Amazon MWAA nicht ausdrücklich unterstützt, aber Sie können ein benutzerdefiniertes Plugin erstellen, das das verwendet. PythonVirtualenvOperator Beispielcode finden Sie unter. Ein benutzerdefiniertes Plugin für Apache Airflow erstellen PythonVirtualenvOperator

Wie lange dauert es, bis Amazon MWAA eine neue DAG-Datei erkennt?

DAGs werden regelmäßig vom Amazon S3 S3-Bucket mit Ihrer Umgebung synchronisiert. Wenn Sie eine neue DAG-Datei hinzufügen, dauert es etwa 300 Sekunden, bis Amazon MWAA die neue Datei verwendet. Wenn Sie eine bestehende DAG aktualisieren, benötigt Amazon MWAA etwa 30 Sekunden, bis Ihre Aktualisierungen erkannt werden.

Diese Werte, 300 Sekunden für neue DAGs und 30 Sekunden für Aktualisierungen vorhandener DAGs, entsprechen den Apache Airflow Airflow-Konfigurationsoptionen dag_dir_list_intervalmin_file_process_intervalbzw.

Warum wird meine DAG-Datei nicht von Apache Airflow abgerufen?

Im Folgenden finden Sie mögliche Lösungen für dieses Problem:

  1. Vergewissern Sie sich, dass Ihre Ausführungsrolle über ausreichende Berechtigungen für Ihren Amazon S3 S3-Bucket verfügt. Weitere Informationen finden Sie unterAmazon MWAA-Ausführungsrolle.

  2. Vergewissern Sie sich, dass für den Amazon S3 S3-Bucket Block Public Access konfiguriert und Versioning aktiviert ist. Weitere Informationen finden Sie unter. Erstellen Sie einen Amazon S3 S3-Bucket für Amazon MWAA

  3. Überprüfen Sie die DAG-Datei selbst. Stellen Sie beispielsweise sicher, dass jede DAG eine eindeutige DAG-ID hat.

Kann ich ein plugins.zip oder requirements.txt aus einer Umgebung entfernen?

Derzeit gibt es keine Möglichkeit, plugins.zip oder requirements.txt aus einer Umgebung zu entfernen, nachdem sie hinzugefügt wurden, aber wir arbeiten an dem Problem. In der Zwischenzeit können Sie das Problem umgehen, indem Sie auf eine leere Text- bzw. ZIP-Datei verweisen. Weitere Informationen finden Sie unter. Löschen von Dateien auf Amazon S3

Warum sehe ich meine Plugins nicht im Admin-Plugins-Menü von Apache Airflow v2.0.2?

Aus Sicherheitsgründen hat der Apache Airflow Airflow-Webserver auf Amazon MWAA einen begrenzten Netzwerkausgang und installiert weder Plugins noch Python-Abhängigkeiten direkt auf dem Apache Airflow Airflow-Webserver für Umgebungen der Version 2.0.2. Mit dem aufgelisteten Plugin kann Amazon MWAA Ihre Apache Airflow Airflow-Benutzer in AWS Identity and Access Management (IAM) authentifizieren.

Um Plugins und Python-Abhängigkeiten direkt auf dem Webserver installieren zu können, empfehlen wir, eine neue Umgebung mit Apache Airflow v2.2 und höher zu erstellen. Amazon MWAA installiert Python-Abhängigkeiten und benutzerdefinierte Plugins direkt auf dem Webserver für Apache Airflow v2.2 und höher.

Kann ich DMS-Operatoren ( AWS Database Migration Service) verwenden?

Amazon MWAA unterstützt DMS-Operatoren. Dieser Operator kann jedoch nicht verwendet werden, um Aktionen in der Amazon Aurora PostgreSQL-Metadatendatenbank durchzuführen, die mit einer Amazon MWAA-Umgebung verknüpft ist.

Kann ich das Drosselungslimit auf mehr als 10 Transaktionen pro Sekunde (TPS) erhöhen, wenn ich mit den AWS Anmeldeinformationen auf die Airflow-REST-API zugreife?

Ja, das können Sie. Um das Drosselungslimit zu erhöhen, wenden Sie sich bitte an den AWS Kundensupport.

Wo läuft der Airflow Task Execution API-Server in Amazon MWAA?

Amazon MWAA führt den Airflow Task Execution API-Server in der Webserver-Komponente aus. APIs Die Ausführung von Aufgaben ist nur in Apache Airflow v3 und höher verfügbar. Weitere Informationen zur Amazon MWAA-Architektur finden Sie unter. Architektur