Hinzufügen einer Apache Airflow Airflow-Konfigurationsoption Apache Airflow Airflow-Scheduler DAG-Ordner DAG-Dateien Aufgaben

Leistungsoptimierung für Apache Airflow auf Amazon MWAA

In diesem Thema wird beschrieben, wie Sie die Leistung einer Amazon Managed Workflows for Apache Airflow Airflow-Umgebung mithilfe von Verwenden der Apache Airflow Airflow-Konfigurationsoptionen auf Amazon MWAA optimieren können.

Inhalt

Hinzufügen einer Apache Airflow Airflow-Konfigurationsoption

Gehen Sie wie folgt vor, um Ihrer Umgebung eine Airflow-Konfigurationsoption hinzuzufügen.

Öffnen Sie die Seite Umgebungen auf der Amazon MWAA-Konsole.
Wählen Sie eine Umgebung aus.
Wählen Sie Bearbeiten aus.
Wählen Sie Weiter aus.
Wählen Sie im Bereich mit den Airflow-Konfigurationsoptionen die Option Benutzerdefinierte Konfiguration hinzufügen aus.
Wählen Sie eine Konfiguration aus der Dropdownliste aus und geben Sie einen Wert ein, oder geben Sie eine benutzerdefinierte Konfiguration ein und geben Sie einen Wert ein.
Wählen Sie für jede Konfiguration, die Sie hinzufügen möchten, die Option Benutzerdefinierte Konfiguration hinzufügen aus.
Wählen Sie Speichern.

Weitere Informationen finden Sie unterVerwenden der Apache Airflow Airflow-Konfigurationsoptionen auf Amazon MWAA.

Apache Airflow Airflow-Scheduler

Der Apache Airflow Scheduler ist eine Kernkomponente von Apache Airflow. Ein Problem mit dem Scheduler kann DAGs verhindern, dass Aufgaben analysiert und Aufgaben geplant werden. Weitere Informationen zur Optimierung des Apache Airflow Airflow-Schedulers finden Sie unter Feinabstimmung der Leistung Ihres Schedulers auf der Apache Airflow Airflow-Dokumentationswebsite.

Parameters

In diesem Abschnitt werden die für den Apache Airflow Scheduler (Apache Airflow v2 und höher) verfügbaren Konfigurationsoptionen und deren Anwendungsfälle beschrieben.

Apache Airflow v3

Konfiguration	Anwendungsfall
celery.sync_parallelism Die Anzahl der Prozesse, die der Celery Executor verwendet, um den Aufgabenstatus zu synchronisieren. Standard: 1	Sie können diese Option verwenden, um Warteschlangenkonflikte zu vermeiden, indem Sie die vom Celery Executor verwendeten Prozesse einschränken. Standardmäßig ist ein Wert auf festgelegt, `1` um Fehler bei der Übermittlung von Aufgabenprotokollen an Logs zu CloudWatch verhindern. Wenn Sie den Wert auf festlegen`0`, wird die maximale Anzahl von Prozessen verwendet, es kann jedoch zu Fehlern bei der Übermittlung von Aufgabenprotokollen kommen.
scheduler.scheduler_idle_sleep_time Die Anzahl der Sekunden, die zwischen aufeinanderfolgenden Verarbeitungen von DAG-Dateien in der Scheduler-"Schleife“ gewartet werden müssen. Standard: 1	Sie können diese Option verwenden, um CPU-Auslastung auf dem Scheduler zu verringern, indem Sie die Zeit verlängern, in der der Scheduler in den Ruhezustand versetzt wird, nachdem er die Ergebnisse der DAG-Analyse abgerufen, Aufgaben gesucht und in die Warteschlange gestellt hat, sowie Aufgaben in der Warteschlange im Executor ausgeführt hat. Wenn Sie diesen Wert erhöhen, wird die Anzahl der in einer Umgebung ausgeführten Scheduler-Threads `dag_processor.parsing_processes` für Apache Airflow v2 und Apache Airflow v3 verbraucht. Dies kann die Kapazität der Scheduler zum Parsen verringern und die Zeit erhöhen DAGs, die zum DAGs Füllen des Webservers benötigt wird.
scheduler.max_dagruns_to_create_per_loop Die maximale Anzahl von zu erstellenden Daten pro Scheduler- „Schleife“. DAGs DagRuns Standard: 10	Sie können diese Option verwenden, um Ressourcen für die Planung von Aufgaben freizugeben, indem Sie die maximale Anzahl von „Schleifen“ DagRunsfür den Scheduler verringern.
dag_processor.parsing_processes Die Anzahl der Threads, die der Scheduler parallel zum Zeitplan DAGs ausführen kann. Standard: Verwenden `(2 * number of vCPUs) - 1`	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Anzahl der Prozesse verringern, die der Scheduler parallel zum DAGs Parsen ausführt. Wir empfehlen, diese Zahl niedrig zu halten, wenn sich das DAG-Parsing auf die Aufgabenplanung auswirkt. Sie müssen einen Wert angeben, der unter der Anzahl der vCPUs in Ihrer Umgebung liegt. Weitere Informationen finden Sie unter Grenzwerte.

Apache Airflow v2

Konfiguration	Anwendungsfall
celery.sync_parallelism Die Anzahl der Prozesse, die der Celery Executor verwendet, um den Aufgabenstatus zu synchronisieren. Standard: 1	Sie können diese Option verwenden, um Warteschlangenkonflikte zu vermeiden, indem Sie die vom Celery Executor verwendeten Prozesse einschränken. Standardmäßig ist ein Wert auf festgelegt, `1` um Fehler bei der Übermittlung von Aufgabenprotokollen an Logs zu CloudWatch verhindern. Wenn Sie den Wert auf festlegen`0`, wird die maximale Anzahl von Prozessen verwendet, es kann jedoch zu Fehlern bei der Übermittlung von Aufgabenprotokollen kommen.
scheduler.idle_sleep_time Die Anzahl der Sekunden, die zwischen aufeinanderfolgenden Verarbeitungen von DAG-Dateien in der Scheduler-"Schleife“ gewartet werden müssen. Standard: 1	Sie können diese Option verwenden, um CPU-Auslastung auf dem Scheduler zu verringern, indem Sie die Zeit verlängern, in der der Scheduler in den Ruhezustand versetzt wird, nachdem er die Ergebnisse der DAG-Analyse abgerufen, Aufgaben gesucht und in die Warteschlange gestellt hat, sowie Aufgaben in der Warteschlange im Executor ausgeführt hat. Wenn Sie diesen Wert erhöhen, wird die Anzahl der in einer Umgebung ausgeführten Scheduler-Threads `scheduler.parsing_processes` für Apache Airflow v2 und Apache Airflow v3 verbraucht. Dies kann die Kapazität der Scheduler zum Parsen verringern und die Zeit erhöhen DAGs, die zum DAGs Füllen des Webservers benötigt wird.
scheduler.max_dagruns_to_create_per_loop Die maximale Anzahl von zu erstellenden Daten pro Scheduler- „Schleife“. DAGs DagRuns Standard: 10	Sie können diese Option verwenden, um Ressourcen für die Planung von Aufgaben freizugeben, indem Sie die maximale Anzahl von „Schleifen“ DagRunsfür den Scheduler verringern.
scheduler.parsing_processes Die Anzahl der Threads, die der Scheduler parallel zum Zeitplan DAGs ausführen kann. Standard: Verwenden `(2 * number of vCPUs) - 1`	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Anzahl der Prozesse verringern, die der Scheduler parallel zum DAGs Parsen ausführt. Wir empfehlen, diese Zahl niedrig zu halten, wenn sich das DAG-Parsing auf die Aufgabenplanung auswirkt. Sie müssen einen Wert angeben, der unter der Anzahl der vCPUs in Ihrer Umgebung liegt. Weitere Informationen finden Sie unter Grenzwerte.

Einschränkungen

In diesem Abschnitt werden die Grenzwerte beschrieben, die bei der Anpassung der Standardparameter für den Scheduler zu berücksichtigen sind.

scheduler.parsing_processes, scheduler.max_threads (nur v2)

Zwei Threads sind pro vCPU für eine Umgebungsklasse zulässig. Mindestens ein Thread muss für den Scheduler einer Umgebungsklasse reserviert sein. Wenn Sie eine Verzögerung bei der Planung von Aufgaben feststellen, müssen Sie möglicherweise Ihre Umgebungsklasse erhöhen. Eine große Umgebung verfügt beispielsweise über eine Fargate-Container-Instance mit 4 vCPUs als Scheduler. Das bedeutet, dass 7 insgesamt ein Maximum an Threads zur Verfügung steht, die für andere Prozesse verwendet werden können. Das heißt, zwei Threads multiplizieren vier VCPUs, minus eins für den Scheduler selbst. Der Wert, den Sie in scheduler.max_threads (nur v2) angeben und scheduler.parsing_processes der die Anzahl der für eine Umgebungsklasse verfügbaren Threads nicht überschreiten darf, wie angegeben:

mw1.small — Der 1 Thread-Wert für andere Prozesse darf nicht überschritten werden. Der verbleibende Thread ist für den Scheduler reserviert.
mw1.medium — Die Anzahl der 3 Threads für andere Prozesse darf nicht überschritten werden. Der verbleibende Thread ist für den Scheduler reserviert.
mw1.large — Die Anzahl der 7 Threads für andere Prozesse darf nicht überschritten werden. Der verbleibende Thread ist für den Scheduler reserviert.

DAG-Ordner

Der Apache Airflow Scheduler scannt kontinuierlich den DAGs Ordner in Ihrer Umgebung. Alle enthaltenen plugins.zip Dateien oder Python (.py) -Dateien, die „Airflow“ -Importanweisungen enthalten. Alle resultierenden Python-DAG-Objekte werden dann in eine DagBagDatei eingefügt, damit sie vom Scheduler verarbeitet werden können, um zu bestimmen, welche Aufgaben gegebenenfalls geplant werden müssen. Die Analyse von DAG-Dateien erfolgt unabhängig davon, ob die Dateien brauchbare DAG-Objekte enthalten.

Parameters

In diesem Abschnitt werden die für den DAGs Ordner verfügbaren Konfigurationsoptionen (Apache Airflow v2 und höher) und ihre Anwendungsfälle beschrieben.

Apache Airflow v3

Konfiguration Anwendungsfall

Konfiguration	Anwendungsfall
dag_processor.refresh_interval Die Anzahl der Sekunden, für die der DAGs Ordner nach neuen Dateien durchsucht werden muss. Standard: 300 Sekunden	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Anzahl der Sekunden für die Analyse des DAGs Ordners erhöhen. Wir empfehlen, diesen Wert zu erhöhen, wenn Sie lange Analysezeiten haben`total_parse_time metrics`, was möglicherweise auf eine große Anzahl von Dateien in Ihrem DAGs Ordner zurückzuführen ist.
dag_processor.min_file_process_interval Die Anzahl der Sekunden, nach denen der Scheduler eine DAG analysiert und Aktualisierungen der DAG berücksichtigt werden. Standard: 30 Sekunden	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Anzahl der Sekunden erhöhen, die der Scheduler wartet, bevor er eine DAG analysiert. Wenn Sie beispielsweise einen Wert von angeben`30`, wird die DAG-Datei alle 30 Sekunden analysiert. Wir empfehlen, diese Zahl hoch zu halten, um die CPU-Auslastung in Ihrer Umgebung zu verringern.

dag_processor.refresh_interval

Die Anzahl der Sekunden, für die der DAGs Ordner nach neuen Dateien durchsucht werden muss.

Standard: 300 Sekunden

Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Anzahl der Sekunden für die Analyse des DAGs Ordners erhöhen. Wir empfehlen, diesen Wert zu erhöhen, wenn Sie lange Analysezeiten habentotal_parse_time metrics, was möglicherweise auf eine große Anzahl von Dateien in Ihrem DAGs Ordner zurückzuführen ist.

dag_processor.min_file_process_interval

Die Anzahl der Sekunden, nach denen der Scheduler eine DAG analysiert und Aktualisierungen der DAG berücksichtigt werden.

Standard: 30 Sekunden

Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Anzahl der Sekunden erhöhen, die der Scheduler wartet, bevor er eine DAG analysiert. Wenn Sie beispielsweise einen Wert von angeben30, wird die DAG-Datei alle 30 Sekunden analysiert. Wir empfehlen, diese Zahl hoch zu halten, um die CPU-Auslastung in Ihrer Umgebung zu verringern.

Apache Airflow v2

Konfiguration Anwendungsfall

Konfiguration	Anwendungsfall
scheduler.dag_dir_list_interval Die Anzahl der Sekunden, für die der Ordner nach neuen Dateien durchsucht werden muss. DAGs Standard: 300 Sekunden	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Anzahl der Sekunden für die Analyse des DAGs Ordners erhöhen. Wir empfehlen, diesen Wert zu erhöhen, wenn Sie lange Analysezeiten haben`total_parse_time metrics`, was möglicherweise auf eine große Anzahl von Dateien in Ihrem DAGs Ordner zurückzuführen ist.
scheduler.min_file_process_interval Die Anzahl der Sekunden, nach denen der Scheduler eine DAG analysiert und Aktualisierungen der DAG berücksichtigt werden. Standard: 30 Sekunden	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Anzahl der Sekunden erhöhen, die der Scheduler wartet, bevor er eine DAG analysiert. Wenn Sie beispielsweise einen Wert von angeben`30`, wird die DAG-Datei alle 30 Sekunden analysiert. Wir empfehlen, diese Zahl hoch zu halten, um die CPU-Auslastung in Ihrer Umgebung zu verringern.

scheduler.dag_dir_list_interval

Die Anzahl der Sekunden, für die der Ordner nach neuen Dateien durchsucht werden muss. DAGs

Standard: 300 Sekunden

scheduler.min_file_process_interval

Die Anzahl der Sekunden, nach denen der Scheduler eine DAG analysiert und Aktualisierungen der DAG berücksichtigt werden.

Standard: 30 Sekunden

DAG-Dateien

Als Teil der Apache Airflow Airflow-Scheduler-Schleife werden einzelne DAG-Dateien analysiert, um DAG-Python-Objekte zu extrahieren. In Apache Airflow v2 und höher analysiert der Scheduler eine maximale Anzahl von Parsing-Prozessen gleichzeitig. Die in scheduler.min_file_process_interval (v2) oder dag_processor.min_file_process_interval (v3) angegebene Anzahl von Sekunden muss vergehen, bevor dieselbe Datei erneut analysiert wird.

Parameters

In diesem Abschnitt werden die für Apache Airflow DAG-Dateien (Apache Airflow v2 und höher) verfügbaren Konfigurationsoptionen und deren Anwendungsfälle beschrieben.

Apache Airflow v3

Konfiguration	Anwendungsfall
dag_processor.dag_file_processor_timeout Die Anzahl der Sekunden vor dem Timeout bei der Verarbeitung einer DAG-Datei. DagFileProcessor Standard: 50 Sekunden	*Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Zeit bis zum DagFileProcessorTimeout verlängern.* Wir empfehlen, diesen Wert zu erhöhen, wenn es in Ihren DAG-Verarbeitungsprotokollen zu Timeouts kommt, die dazu führen, dass keine brauchbaren Dateien geladen DAGs werden.
core.dagbag_import_timeout Die Anzahl der Sekunden vor dem Import einer Python-Datei wird überschritten. Standard: 30 Sekunden	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Zeit erhöhen, die benötigt wird, bis der Scheduler beim Import einer Python-Datei zum Extrahieren der DAG-Objekte ein Timeout durchführt. Diese Option wird als Teil der Scheduler-"Schleife“ verarbeitet und muss einen Wert enthalten, der unter dem in angegebenen Wert liegt. `dag_processor.dag_file_processor_timeout`
core.min_serialized_dag_update_interval Die Mindestanzahl von Sekunden, nach der serialisierte Daten in der Datenbank aktualisiert werden. DAGs Standard: 30	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Anzahl der Sekunden erhöhen, nach denen serialisierte Daten DAGs in der Datenbank aktualisiert werden. Wir empfehlen, diesen Wert zu erhöhen, wenn Sie über eine große Anzahl von oder komplexe DAGs DAGs Daten verfügen. Eine Erhöhung dieses Werts reduziert die Belastung des Schedulers und der Datenbank, da sie DAGs serialisiert werden.
core.min_serialized_dag_fetch_interval Die Anzahl der Sekunden, für die eine serialisierte DAG erneut aus der Datenbank abgerufen wird, wenn sie bereits in die geladen ist. DagBag Standard: 10	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Anzahl der Sekunden erhöhen, für die eine serialisierte DAG erneut abgerufen wird. Der Wert muss größer als der unter angegebene Wert sein, `core.min_serialized_dag_update_interval` um die Schreibraten der Datenbank zu reduzieren. Eine Erhöhung dieses Werts reduziert die Belastung des Webservers und der Datenbank, sofern sie serialisiert DAGs werden.

Apache Airflow v2

Konfiguration	Anwendungsfall
core.dag_file_processor_timeout Die Anzahl der Sekunden vor dem Timeout bei der Verarbeitung einer DAG-Datei. DagFileProcessor Standard: 50 Sekunden	*Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Zeit bis zum DagFileProcessorTimeout verlängern.* Wir empfehlen, diesen Wert zu erhöhen, wenn es in Ihren DAG-Verarbeitungsprotokollen zu Timeouts kommt, die dazu führen, dass keine brauchbaren Dateien geladen DAGs werden.
core.dagbag_import_timeout Die Anzahl der Sekunden vor dem Import einer Python-Datei wird überschritten. Standard: 30 Sekunden	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Zeit erhöhen, die benötigt wird, bis der Scheduler beim Import einer Python-Datei zum Extrahieren der DAG-Objekte ein Timeout durchführt. Diese Option wird als Teil der Scheduler-"Schleife“ verarbeitet und muss einen Wert enthalten, der unter dem in angegebenen Wert liegt. `core.dag_file_processor_timeout`
core.min_serialized_dag_update_interval Die Mindestanzahl von Sekunden, nach der serialisierte Daten in der Datenbank aktualisiert werden. DAGs Standard: 30	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Anzahl der Sekunden erhöhen, nach denen serialisierte Daten DAGs in der Datenbank aktualisiert werden. Wir empfehlen, diesen Wert zu erhöhen, wenn Sie über eine große Anzahl von oder komplexe DAGs DAGs Daten verfügen. Eine Erhöhung dieses Werts reduziert die Belastung des Schedulers und der Datenbank, da sie DAGs serialisiert werden.
core.min_serialized_dag_fetch_interval Die Anzahl der Sekunden, für die eine serialisierte DAG erneut aus der Datenbank abgerufen wird, wenn sie bereits in die geladen ist. DagBag Standard: 10	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Anzahl der Sekunden erhöhen, für die eine serialisierte DAG erneut abgerufen wird. Der Wert muss größer als der unter angegebene Wert sein, `core.min_serialized_dag_update_interval` um die Schreibraten der Datenbank zu reduzieren. Eine Erhöhung dieses Werts reduziert die Belastung des Webservers und der Datenbank, sofern sie serialisiert DAGs werden.

Aufgaben

Der Apache Airflow Airflow-Scheduler und die Mitarbeiter sind beide an Aufgaben zum Warteschlangen und Entfernen von Warteschlangen beteiligt. Der Scheduler versetzt analysierte Aufgaben, die zur Planung bereit sind, vom Status „Keine“ in den Status „Geplant“. Der Executor, der ebenfalls auf dem Scheduler-Container in Fargate läuft, stellt diese Aufgaben in die Warteschlange und setzt ihren Status auf In Warteschlange. Wenn die Mitarbeiter über Kapazitäten verfügen, nimmt er die Aufgabe aus der Warteschlange und setzt den Status auf Wird ausgeführt. Anschließend wird der Status auf Erfolgreich oder Fehlgeschlagen geändert, je nachdem, ob die Aufgabe erfolgreich war oder nicht.

Parameters

In diesem Abschnitt werden die für Apache Airflow Airflow-Aufgaben verfügbaren Konfigurationsoptionen und deren Anwendungsfälle beschrieben.

Die Standardkonfigurationsoptionen, die Amazon MWAA überschreibt, sind markiert. red

Apache Airflow v3

Konfiguration	Anwendungsfall
core.parallelism Die maximale Anzahl von Task-Instanzen, die einen Status haben können. `Running` Standard: Dynamisch festgelegt basierend auf`(maxWorkers * maxCeleryWorkers) / schedulers * 1.5`.	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Anzahl der Task-Instanzen erhöhen, die gleichzeitig ausgeführt werden können. Der angegebene Wert muss der Anzahl der verfügbaren Arbeitskräfte multipliziert mit der Aufgabendichte der Mitarbeiter entsprechen. Es wird empfohlen, diesen Wert nur zu ändern, wenn Sie feststellen, dass eine große Anzahl von Aufgaben im Status „Wird ausgeführt“ oder „In der Warteschlange“ hängen bleibt.
core.execute_tasks_new_python_interpreter Bestimmt, ob Apache Airflow Aufgaben ausführt, indem es den übergeordneten Prozess forkt oder einen neuen Python-Prozess erstellt. Standardwert: `True`	Wenn diese Option auf gesetzt ist`True`, erkennt Apache Airflow Änderungen, die Sie an Ihren Plugins vornehmen, als neuen Python-Prozess, der zur Ausführung von Aufgaben erstellt wurde.
celery.worker_concurrency Amazon MWAA überschreibt die Airflow-Basisinstallation für diese Option, um Worker als Teil seiner Autoscaling-Komponente zu skalieren. Standard: Nicht zutreffend	`Any value specified for this option is ignored.`
celery.worker_autoscale Die Parallelität von Aufgaben für Mitarbeiter. Standardwerte: mw1.micro - 3,0 mw1.small - 5,0 mw1.mittel - 10,0 mw1.large - 20,0 mw1.xlarge - 40,0 mw1.2xlarge - 80,0	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Parallelität der `maximum` Mitarbeiter reduzieren`minimum`. Mitarbeiter akzeptieren bis zu den konfigurierten `maximum` gleichzeitigen Aufgaben, unabhängig davon, ob genügend Ressourcen dafür zur Verfügung stehen. Wenn Aufgaben ohne ausreichende Ressourcen geplant werden, schlagen die Aufgaben sofort fehl. Es wird empfohlen, diesen Wert für ressourcenintensive Aufgaben zu ändern, indem die Werte so reduziert werden, dass sie unter den Standardwerten liegen, um mehr Kapazität pro Aufgabe zu ermöglichen.

Apache Airflow v2

Konfiguration	Anwendungsfall
core.parallelism Die maximale Anzahl von Task-Instanzen, die einen Status haben können. `Running` Standard: Dynamisch festgelegt basierend auf`(maxWorkers * maxCeleryWorkers) / schedulers * 1.5`.	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Anzahl der Task-Instanzen erhöhen, die gleichzeitig ausgeführt werden können. Der angegebene Wert muss der Anzahl der verfügbaren Arbeitskräfte multipliziert mit der Aufgabendichte der Mitarbeiter entsprechen. Es wird empfohlen, diesen Wert nur zu ändern, wenn Sie feststellen, dass eine große Anzahl von Aufgaben im Status „Wird ausgeführt“ oder „In der Warteschlange“ hängen bleibt.
core.dag_concurrency Die Anzahl der Task-Instanzen, die für jede DAG gleichzeitig ausgeführt werden dürfen. Standard: 10000	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Anzahl der Task-Instanzen erhöhen, die gleichzeitig ausgeführt werden dürfen. Wenn Sie beispielsweise einhundert DAGs mit zehn parallel Aufgaben haben und möchten, dass alle DAGs gleichzeitig ausgeführt werden, können Sie die maximale Parallelität als die Anzahl der verfügbaren Arbeitskräfte multipliziert mit der Aufgabendichte der Mitarbeiter in`celery.worker_concurrency`, geteilt durch die Anzahl von berechnen. DAGs
core.execute_tasks_new_python_interpreter Bestimmt, ob Apache Airflow Aufgaben ausführt, indem es den übergeordneten Prozess forkt oder einen neuen Python-Prozess erstellt. Standardwert: `True`	Wenn diese Option auf gesetzt ist`True`, erkennt Apache Airflow Änderungen, die Sie an Ihren Plugins vornehmen, als neuen Python-Prozess, der zur Ausführung von Aufgaben erstellt wurde.
celery.worker_concurrency Amazon MWAA überschreibt die Airflow-Basisinstallation für diese Option, um Worker als Teil seiner Autoscaling-Komponente zu skalieren. Standard: Nicht zutreffend	`Any value specified for this option is ignored.`
celery.worker_autoscale Die Parallelität von Aufgaben für Mitarbeiter. Standardwerte: mw1.micro - 3,0 mw1.small - 5,0 mw1.mittel - 10,0 mw1.large - 20,0 mw1.xlarge - 40,0 mw1.2xlarge - 80,0	Sie können diese Option verwenden, um Ressourcen freizugeben, indem Sie die Parallelität der `maximum` Mitarbeiter reduzieren`minimum`. Mitarbeiter akzeptieren bis zu den konfigurierten `maximum` gleichzeitigen Aufgaben, unabhängig davon, ob genügend Ressourcen dafür zur Verfügung stehen. Wenn Aufgaben ohne ausreichende Ressourcen geplant werden, schlagen die Aufgaben sofort fehl. Es wird empfohlen, diesen Wert für ressourcenintensive Aufgaben zu ändern, indem die Werte so reduziert werden, dass sie unter den Standardwerten liegen, um mehr Kapazität pro Aufgabe zu ermöglichen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Best Practices

Verwaltung von Python-Abhängigkeiten