Verwaltung von Python-Abhängigkeiten in requirements.txt - Von Amazon verwaltete Workflows für Apache Airflow

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwaltung von Python-Abhängigkeiten in requirements.txt

In diesem Thema wird beschrieben, wie Python-Abhängigkeiten in einer requirements.txt Datei für eine Amazon Managed Workflows for Apache Airflow Airflow-Umgebung installiert und verwaltet werden.

Testen DAGs mit dem Amazon MWAA CLI Utility

  • Das Befehlszeilenschnittstellenprogramm (CLI) repliziert eine Amazon Managed Workflows for Apache Airflow Airflow-Umgebung lokal.

  • Die CLI erstellt lokal ein Docker-Container-Image, das einem Amazon MWAA-Produktionsimage ähnelt. Sie können damit eine lokale Apache Airflow Airflow-Umgebung ausführen, um benutzerdefinierte Plugins und Abhängigkeiten zu entwickeln und zu testen DAGs, bevor Sie sie auf Amazon MWAA bereitstellen.

  • Informationen zum Ausführen der CLI finden Sie unter aws-mwaa-docker-imageson GitHub.

Installation von Python-Abhängigkeiten mit dem PyPi .org-Anforderungsdateiformat

Im folgenden Abschnitt werden die verschiedenen Möglichkeiten beschrieben, Python-Abhängigkeiten gemäß dem PyPi .org Requirements File Format zu installieren.

Option eins: Python-Abhängigkeiten aus dem Python-Paketindex

Im folgenden Abschnitt wird beschrieben, wie Python-Abhängigkeiten aus dem Python-Paketindex in einer requirements.txt Datei angegeben werden.

Apache Airflow v3
  1. Testen Sie lokal. Fügen Sie iterativ weitere Bibliotheken hinzu, um die richtige Kombination von Paketen und ihren Versionen zu finden, bevor Sie eine requirements.txt Datei erstellen. Informationen zum Ausführen des Amazon MWAA-CLI-Dienstprogramms finden Sie aws-mwaa-docker-imagesunter. GitHub

  2. Sehen Sie sich die Extras des Apache Airflow-Pakets an. Eine Liste der für Apache Airflow v3 auf Amazon MWAA installierten Pakete finden Sie aws-mwaa-docker-images requirements.txtauf der Website. GitHub

  3. Fügen Sie eine Beschränkungsanweisung hinzu. Fügen Sie die Einschränkungsdatei für Ihre Apache Airflow v3-Umgebung am Anfang Ihrer requirements.txt Datei hinzu. Apache Airflow Airflow-Einschränkungsdateien spezifizieren die Anbieterversionen, die zum Zeitpunkt einer Apache Airflow Airflow-Veröffentlichung verfügbar waren.

    Ersetzen Sie im folgenden Beispiel {environment-version} durch die Versionsnummer Ihrer Umgebung und {Python-version} durch die Version von Python, die mit Ihrer Umgebung kompatibel ist.

    Informationen zu der Version von Python, die mit Ihrer Apache Airflow Airflow-Umgebung kompatibel ist, finden Sie unter Apache Airflow Airflow-Versionen.

    --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-{Airflow-version}/constraints-{Python-version}.txt"

    Wenn die Beschränkungsdatei feststellt, dass das xyz==1.0 Paket nicht mit anderen Paketen in Ihrer Umgebung kompatibel ist, verhindert sie pip3 install nicht, dass inkompatible Bibliotheken in Ihrer Umgebung installiert werden. Wenn die Installation für eines der Pakete fehlschlägt, können Sie auf die Fehlerprotokolle für jede Apache Airflow Airflow-Komponente (den Scheduler, den Worker und den Webserver) im entsprechenden Protokollstream unter Logs zugreifen. CloudWatch Weitere Informationen zu Protokolltypen finden Sie unter. Zugreifen auf Airflow-Protokolle in Amazon CloudWatch

  4. Apache Airflow-Pakete. Fügen Sie die Paket-Extras und die Version (==) hinzu. Dies hilft zu verhindern, dass Pakete mit demselben Namen, aber unterschiedlicher Version in Ihrer Umgebung installiert werden.

    apache-airflow[package-extra]==2.5.1
  5. Python-Bibliotheken. Fügen Sie den Paketnamen und die Version (==) in Ihre requirements.txt Datei ein. Auf diese Weise wird verhindert, dass ein future aktuelles Update von PyPi.org automatisch angewendet wird.

    library == version
    Beispiel Boto3 und psycopg2-binary

    Dieses Beispiel dient zu Demonstrationszwecken. Die Bibliotheken boto und psycopg2-binary sind in der Basisinstallation für Apache Airflow v3 enthalten und müssen nicht in einer Datei angegeben werden. requirements.txt

    boto3==1.17.54 boto==2.49.0 botocore==1.20.54 psycopg2-binary==2.8.6

    Wenn ein Paket ohne Version angegeben wird, installiert Amazon MWAA die neueste Version des Pakets von PyPi .org. Diese Version kann zu Konflikten mit anderen Paketen in Ihrem führen. requirements.txt

Apache Airflow v2
  1. Testen Sie lokal. Fügen Sie iterativ weitere Bibliotheken hinzu, um die richtige Kombination von Paketen und ihren Versionen zu finden, bevor Sie eine requirements.txt Datei erstellen. Informationen zum Ausführen des Amazon MWAA-CLI-Dienstprogramms finden Sie aws-mwaa-docker-imagesunter. GitHub

  2. Sehen Sie sich die Extras des Apache Airflow-Pakets an. Eine Liste der für Apache Airflow v2 auf Amazon MWAA installierten Pakete finden Sie aws-mwaa-docker-images requirements.txtauf der Website. GitHub

  3. Fügen Sie eine Beschränkungsanweisung hinzu. Fügen Sie die Einschränkungsdatei für Ihre Apache Airflow v2-Umgebung am Anfang Ihrer requirements.txt Datei hinzu. Apache Airflow Airflow-Einschränkungsdateien spezifizieren die Anbieterversionen, die zum Zeitpunkt einer Apache Airflow Airflow-Veröffentlichung verfügbar waren.

    Ab Apache Airflow v2.7.2 muss Ihre Anforderungsdatei eine Erklärung enthalten. --constraint Wenn Sie keine Einschränkung angeben, gibt Amazon MWAA eine für Sie an, um sicherzustellen, dass die in Ihren Anforderungen aufgeführten Pakete mit der Version von Apache Airflow kompatibel sind, die Sie verwenden.

    Ersetzen Sie im folgenden Beispiel {environment-version} durch die Versionsnummer Ihrer Umgebung und {Python-version} durch die Version von Python, die mit Ihrer Umgebung kompatibel ist.

    Informationen zu der Version von Python, die mit Ihrer Apache Airflow Airflow-Umgebung kompatibel ist, finden Sie unter Apache Airflow Airflow-Versionen.

    --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-{Airflow-version}/constraints-{Python-version}.txt"

    Wenn die Beschränkungsdatei feststellt, dass das xyz==1.0 Paket nicht mit anderen Paketen in Ihrer Umgebung kompatibel ist, verhindert sie pip3 install nicht, dass inkompatible Bibliotheken in Ihrer Umgebung installiert werden. Wenn die Installation für eines der Pakete fehlschlägt, können Sie auf die Fehlerprotokolle für jede Apache Airflow Airflow-Komponente (den Scheduler, den Worker und den Webserver) im entsprechenden Protokollstream unter Logs zugreifen. CloudWatch Weitere Informationen zu Protokolltypen finden Sie unter. Zugreifen auf Airflow-Protokolle in Amazon CloudWatch

  4. Apache Airflow-Pakete. Fügen Sie die Paket-Extras und die Version (==) hinzu. Dies hilft zu verhindern, dass Pakete mit demselben Namen, aber unterschiedlicher Version in Ihrer Umgebung installiert werden.

    apache-airflow[package-extra]==2.5.1
  5. Python-Bibliotheken. Fügen Sie den Paketnamen und die Version (==) in Ihre requirements.txt Datei ein. Auf diese Weise wird verhindert, dass ein future aktuelles Update von PyPi.org automatisch angewendet wird.

    library == version
    Beispiel Boto3 und psycopg2-binary

    Dieses Beispiel dient zu Demonstrationszwecken. Die Bibliotheken boto und psycopg2-binary sind in der Apache Airflow v2-Basisinstallation enthalten und müssen nicht in einer Datei angegeben werden. requirements.txt

    boto3==1.17.54 boto==2.49.0 botocore==1.20.54 psycopg2-binary==2.8.6

    Wenn ein Paket ohne Version angegeben wird, installiert Amazon MWAA die neueste Version des Pakets von PyPi .org. Diese Version kann zu Konflikten mit anderen Paketen in Ihrem führen. requirements.txt

Option zwei: Python-Räder (.whl)

Ein Python-Rad ist ein Paketformat, das entwickelt wurde, um Bibliotheken mit kompilierten Artefakten auszuliefern. Wheel-Pakete als Methode zur Installation von Abhängigkeiten in Amazon MWAA bieten mehrere Vorteile:

  • Schnellere Installation — Die WHL-Dateien werden als einzelne ZIP-Datei in den Container kopiert und dann lokal installiert, ohne dass jede Datei heruntergeladen werden muss.

  • Weniger Konflikte — Sie können die Versionskompatibilität für Ihre Pakete im Voraus ermitteln. Daher ist es nicht erforderlich, rekursiv kompatible Versionen pip zu ermitteln.

  • Höhere Stabilität — Bei extern gehosteten Bibliotheken können sich die nachgelagerten Anforderungen ändern, was zu Versionsinkompatibilität zwischen Containern in einer Amazon MWAA-Umgebung führt. Da Abhängigkeiten nicht von einer externen Quelle abhängig sind, verfügt jeder Container über dieselben Bibliotheken, unabhängig davon, wann die einzelnen Container instanziiert werden.

Wir empfehlen die folgenden Methoden, um Python-Abhängigkeiten aus einem Python-Radarchiv (.whl) in Ihrem zu installierenrequirements.txt.

Verwenden der plugins.zip Datei in einem Amazon S3 S3-Bucket

Der Apache Airflow-Scheduler, die Worker und der Webserver (für Apache Airflow v2.2.2 und höher) suchen beim Start auf dem AWS-verwalteten Fargate-Container für Ihre Umgebung unter nach benutzerdefinierten Plugins. /usr/local/airflow/plugins/* Dieser Prozess beginnt vor den Abhängigkeiten von Amazon MWAA pip3 install -r requirements.txt für Python und dem Start des Apache Airflow Airflow-Dienstes. Eine plugins.zip Datei kann für alle Dateien verwendet werden, die während der Ausführung der Umgebung nicht ständig geändert werden sollen oder für die Sie Benutzern, die schreiben, keinen Zugriff gewähren möchten. DAGs Zum Beispiel Raddateien für die Python-Bibliothek, Zertifikats-PEM-Dateien und YAML-Konfigurationsdateien.

Im folgenden Abschnitt wird beschrieben, wie Sie ein Rad, das sich in der plugins.zip Datei befindet, in Ihrem Amazon S3 S3-Bucket installieren.

  1. Laden Sie die erforderlichen WHL-Dateien herunter, die Sie pip downloadmit Ihrem requirements.txt auf Amazon MWAA aws-mwaa-docker-imagesoder einem anderen Amazon Linux 2-Container vorhandenen Container verwenden können, um die erforderlichen Python-Wheel-Dateien aufzulösen und herunterzuladen.

    pip3 download -r "$AIRFLOW_HOME/dags/requirements.txt" -d "$AIRFLOW_HOME/plugins" cd "$AIRFLOW_HOME/plugins" zip "$AIRFLOW_HOME/plugins.zip" *
  2. Geben Sie den Pfad in Ihrem an. requirements.txt Geben Sie das Plugins-Verzeichnis oben in Ihrer Datei requirements.txt an --find-linksund weisen Sie an, pip nicht aus anderen Quellen zu installieren --no-index, wie im folgenden Code aufgeführt:

    --find-links /usr/local/airflow/plugins --no-index
    Beispiel Rad in requirements.txt

    Im folgenden Beispiel wird davon ausgegangen, dass Sie das Rad in eine plugins.zip Datei im Stammverzeichnis Ihres Amazon S3 S3-Buckets hochgeladen haben. Zum Beispiel:

    --find-links /usr/local/airflow/plugins --no-index numpy

    Amazon MWAA ruft das numpy-1.20.1-cp37-cp37m-manylinux1_x86_64.whl Rad aus dem plugins Ordner ab und installiert es in Ihrer Umgebung.

Verwenden einer WHL-Datei, die auf einer URL gehostet wird

Im folgenden Abschnitt wird beschrieben, wie Sie ein Rad installieren, das auf einer URL gehostet wird. Die URL muss entweder öffentlich zugänglich sein oder von der benutzerdefinierten Amazon VPC aus zugänglich sein, die Sie für Ihre Amazon MWAA-Umgebung angegeben haben.

  • Geben Sie eine URL an. Geben Sie die URL zu einem Rad in Ihrem anrequirements.txt.

    Beispiel Radarchiv auf einer öffentlichen URL

    Im folgenden Beispiel wird ein Rad von einer öffentlichen Site heruntergeladen.

    --find-links https://files.pythonhosted.org/packages/ --no-index

    Amazon MWAA ruft das Rad von der von Ihnen angegebenen URL ab und installiert es in Ihrer Umgebung.

    Anmerkung

    URLs sind nicht von privaten Webservern aus zugänglich, die Anforderungen in Amazon MWAA v2.2.2 und höher installieren.

Erstellen von WHL-Dateien aus einer DAG

Wenn Sie einen privaten Webserver haben, der Apache Airflow v2.2.2 oder höher verwendet, und Sie die Anforderungen nicht installieren können, weil Ihre Umgebung keinen Zugriff auf externe Repositorys hat, können Sie die folgende DAG verwenden, um Ihre bestehenden Amazon MWAA-Anforderungen zu übernehmen und sie auf Amazon S3 zu packen:

from airflow import DAG from airflow.operators.bash_operator import BashOperator from airflow.utils.dates import days_ago S3_BUCKET = 'my-s3-bucket' S3_KEY = 'backup/plugins_whl.zip' with DAG(dag_id="create_whl_file", schedule_interval=None, catchup=False, start_date=days_ago(1)) as dag: cli_command = BashOperator( task_id="bash_command", bash_command=f"mkdir /tmp/whls;pip3 download -r /usr/local/airflow/requirements/requirements.txt -d /tmp/whls;zip -j /tmp/plugins.zip /tmp/whls/*;aws s3 cp /tmp/plugins.zip s3://amzn-s3-demo-bucket/{S3_KEY}" )

Nachdem Sie die DAG ausgeführt haben, verwenden Sie diese neue Datei als Amazon MWAAplugins.zip, optional im Paket mit anderen Plug-ins. Aktualisieren Sie dann Ihre vorherige Version requirements.txt mit --find-links /usr/local/airflow/plugins und --no-index ohne Hinzufügen. --constraint

Mit dieser Methode können Sie dieselben Bibliotheken offline verwenden.

Option drei: Python-Abhängigkeiten, die auf einem privaten PyPi /PEP-503-konformen Repo gehostet werden

Im folgenden Abschnitt wird beschrieben, wie Sie ein Apache Airflow Airflow-Extra installieren, das auf einer privaten URL mit Authentifizierung gehostet wird.

  1. Fügen Sie Ihren Benutzernamen und Ihr Passwort als Apache Airflow Airflow-Konfigurationsoptionen hinzu. Zum Beispiel:

    • foo.user : YOUR_USER_NAME

    • foo.pass : YOUR_PASSWORD

  2. Erstellen Sie Ihre requirements.txt Datei. Ersetzen Sie die Platzhalter im folgenden Beispiel durch Ihre private URL und den Benutzernamen und das Passwort, die Sie als Apache Airflow Airflow-Konfigurationsoptionen hinzugefügt haben. Zum Beispiel:

    --index-url https://${AIRFLOW__FOO__USER}:${AIRFLOW__FOO__PASS}@my.privatepypi.com
  3. Fügen Sie Ihrer Datei weitere Bibliotheken hinzurequirements.txt. Zum Beispiel:

    --index-url https://${AIRFLOW__FOO__USER}:${AIRFLOW__FOO__PASS}@my.privatepypi.com my-private-package==1.2.3

Aktivieren von Protokollen auf der Amazon MWAA-Konsole

Die Ausführungsrolle für Ihre Amazon MWAA-Umgebung benötigt die Erlaubnis, Protokolle an Logs zu CloudWatch senden. Informationen zum Aktualisieren der Berechtigungen einer Ausführungsrolle finden Sie unter. Amazon MWAA-Ausführungsrolle

Sie können Apache Airflow Airflow-Protokolle auf der CRITICAL Ebene INFOWARNING,ERROR, oder aktivieren. Wenn Sie eine Protokollebene wählen, sendet Amazon MWAA Protokolle für diese Stufe und alle höheren Schweregrade. Wenn Sie beispielsweise Protokolle auf der INFO Ebene aktivieren, sendet Amazon MWAA INFO Protokolle und WARNINGERROR, und Protokollebenen an CRITICAL CloudWatch Logs. Wir empfehlen, die Apache Airflow Airflow-Protokolle auf der INFO Ebene zu aktivieren, auf die für den Scheduler empfangenen Protokolle zugreifen kann. requirements.txt

Dieses Bild zeigt, wie Protokolle auf der INFO-Ebene aktiviert werden.

Zugriff auf Protokolle in der CloudWatch Logs-Konsole

Sie können auf die Apache Airflow Airflow-Protokolle für den Scheduler zugreifen, um Ihre Workflows zu planen und Ihren Ordner zu analysieren. dags In den folgenden Schritten wird beschrieben, wie Sie die Protokollgruppe für den Scheduler auf der Amazon MWAA-Konsole öffnen und auf die Apache Airflow Airflow-Protokolle in der Logs-Konsole zugreifen. CloudWatch

So greifen Sie auf Protokolle für einen zu requirements.txt
  1. Öffnen Sie die Seite Umgebungen auf der Amazon MWAA-Konsole.

  2. Wählen Sie eine Umgebung aus.

  3. Wählen Sie im Bereich Überwachung die Protokollgruppe Airflow Scheduler aus.

  4. Wählen Sie unter requirements_install_ip Log-Streams die Option Log Streams aus.

  5. Eine Liste der Pakete, die in der Umgebung installiert wurden, finden Sie unter/usr/local/airflow/.local/bin. Zum Beispiel:

    Collecting appdirs==1.4.4 (from -r /usr/local/airflow/.local/bin (line 1)) Downloading https://files.pythonhosted.org/packages/3b/00/2344469e2084fb28kjdsfiuyweb47389789vxbmnbjhsdgf5463acd6cf5e3db69324/appdirs-1.4.4-py2.py3-none-any.whl Collecting astroid==2.4.2 (from -r /usr/local/airflow/.local/bin (line 2))
  6. Überprüfen Sie die Liste der Pakete und ob bei der Installation eines dieser Pakete ein Fehler aufgetreten ist. Wenn etwas schief gelaufen ist, erhalten Sie möglicherweise eine Fehlermeldung, die der folgenden ähnelt:

    2021-03-05T14:34:42.731-07:00 No matching distribution found for LibraryName==1.0.0 (from -r /usr/local/airflow/.local/bin (line 4)) No matching distribution found for LibraryName==1.0.0 (from -r /usr/local/airflow/.local/bin (line 4))

Zugreifen auf Fehler in der Apache Airflow Airflow-Benutzeroberfläche

Sie können auch Ihre Apache Airflow Airflow-Benutzeroberfläche überprüfen, um festzustellen, ob ein Fehler mit einem anderen Problem zusammenhängt. Der häufigste Fehler, der bei Apache Airflow auf Amazon MWAA auftreten kann, ist:

Broken DAG: No module named x

Wenn Sie diesen Fehler in Ihrer Apache Airflow Airflow-Benutzeroberfläche finden, fehlt Ihnen wahrscheinlich eine erforderliche Abhängigkeit in Ihrer requirements.txt Datei.

Melden Sie sich bei Apache Airflow an

Sie benötigen Zugriffsrichtlinie für die Apache Airflow Airflow-Benutzeroberfläche: Amazon MWAAWeb ServerAccess Berechtigungen für Ihr AWS-Konto In AWS Identity and Access Management (IAM), um auf Ihre Apache Airflow Airflow-Benutzeroberfläche zugreifen zu können.

So greifen Sie auf Ihre Apache Airflow Airflow-Benutzeroberfläche zu
  1. Öffnen Sie die Seite Umgebungen auf der Amazon MWAA-Konsole.

  2. Wählen Sie eine Umgebung aus.

  3. Wählen Sie „Airflow-Benutzeroberfläche öffnen“.

Beispielszenarien requirements.txt

Sie können verschiedene Formate in Ihrem kombinierenrequirements.txt. Das folgende Beispiel verwendet eine Kombination der verschiedenen Möglichkeiten zur Installation von Extras.

Beispiel Extras auf PyPi .org und eine öffentliche URL

Sie müssen --index-url diese Option verwenden, wenn Sie Pakete von PyPi .org angeben, zusätzlich zu Paketen auf einer öffentlichen URL, wie z. B. einem benutzerdefinierten PEP 503-kompatiblen Repo URLs.

aws-batch == 0.6 phoenix-letter >= 0.3 --index-url http://dist.repoze.org/zope2/2.10/simple zopelib