Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwendung von Auftragsparametern in AWS-Glue-Aufträgen
Legen Sie beim Erstellen eines AWS-Glue-Auftrags einige Standardfelder fest, z. B. Role und WorkerType. Über die Argument-Felder (Auftragsparameter in der Konsole) können Sie zusätzliche Konfigurationsinformationen bereitstellen. In diesen Feldern können Sie AWS-Glue-Aufträgen mit den in diesem Thema aufgeführten Argumenten (Parametern) bereitstellen.
Weitere Informationen über die AWS-Glue-Auftrags-API finden Sie unter Jobs.
Anmerkung
Auftragsargumente haben eine maximale Größenbeschränkung von 260 KB. Eine Validierungsprüfung führt zu einem Fehler, wenn die Argumentgröße größer als 260 KB ist.
Festlegen der Auftragsparameter
Sie können einen Auftrag über die Konsole auf der Registerkarte Job details (Details zur Auftragsausführung) unter der Kopfzeile Job Parameters (Auftragsparameter) konfigurieren. Sie können einen Auftrag auch über die AWS CLI konfigurieren, indem Sie DefaultArguments oder NonOverridableArguments für einen Auftrag oder Arguments für eine Auftragsausführung festlegen. Für den Auftrag festgelegte Argumente werden bei jeder Ausführung des Auftrags übergeben, während bei der Auftragsausführung festgelegte Argumente nur für diese einzelne Ausführung übergeben werden.
Im Folgenden finden Sie beispielsweise die Syntax zum Ausführen eines Auftrags mit --arguments zum Festlegen eines Auftragsparameters.
$ aws glue start-job-run --job-name "CSV to CSV" --arguments='--scriptLocation="s3://my_glue/libraries/test_lib.py"'
Zugreifen auf Auftragsparameter
Beim Schreiben von AWS-Glue-Skripten möchten Sie möglicherweise auf Auftragsparameterwerte zugreifen, um das Verhalten Ihres eigenen Codes zu ändern. In unseren Bibliotheken stellen wir hierfür Hilfsmethoden zur Verfügung. Diese Methoden lösen Parameterwerte der Auftragsausführung auf, die die Parameterwerte des Auftrags überschreiben. Bei der Auflösung von Parametern, die an mehreren Stellen festgelegt wurden, überschreibt Auftrag NonOverridableArguments die Auftragsausführung Arguments, die wiederum Auftrag DefaultArguments überschreibt.
In Python:
In Python-Aufträgen stellen wir eine Funktion mit dem Namen getResolvedParameters bereit. Weitere Informationen finden Sie unter Zugriff auf Parameter mit getResolvedOptions. Die Auftragsparameter sind in der Variablen sys.argv verfügbar.
In Scala:
In Scala-Aufträgen stellen wir ein Objekt mit dem Namen GlueArgParser bereit. Weitere Informationen finden Sie unter AWS Glue Scala GlueArgParser-APIs. Die Auftragsparameter sind in der Variablen sysArgs verfügbar.
Referenz der Auftragsparameter
AWS Glue erkennt mehrere Argumentnamen, mit denen Sie die Skriptumgebung für Ihre Aufgaben und Aufgabenausführungen einrichten können:
--additional-python-modules-
Eine durch Kommas getrennte Liste, die eine Reihe von Python-Paketen darstellt, die installiert werden sollen. Sie können Pakete von PyPI installieren oder eine benutzerdefinierte Verteilung bereitstellen. Ein PyPI-Paketeintrag liegt im Format
vor und enthält den PyPI-Namen und die Version Ihres Zielpakets. Ein benutzerdefinierter Verteilungseintrag ist der S3-Pfad zur Verteilung.package==versionEinträge verwenden einen Python-Versionsabgleich, um Paket und Version abzugleichen. Dies bedeutet, dass Sie zwei Gleichheitszeichen verwenden müssen, z. B.
==. Es gibt andere Operatoren für den Versionsabgleich. Weitere Informationen dazu finden Sie unter PEP 440. Um Optionen für die Modulinstallation an
pip3zu übergeben, verwenden Sie den --python-modules-installer-option-Parameter. --auto-scale-within-microbatch-
Der Standardwert ist "True". Dieser Parameter kann nur für AWS-Glue-Streaming-Aufträge verwendet werden, die die Streaming-Daten in einer Reihe von Mikro-Batches verarbeiten, und Auto Scaling muss aktiviert sein. Wenn dieser Wert auf falsch gesetzt ist, wird der exponentielle gleitende Durchschnitt der Batch-Dauer für abgeschlossene Micro-Batches berechnet. Dieser Wert wird mit der Fenstergröße verglichen, um festzulegen, ob die Anzahl der Ausführer hoch- oder herunterskaliert werden soll. Die Skalierung erfolgt erst, wenn ein Mikro-Batch abgeschlossen ist. Wenn dieser Wert während eines Mikro-Batches auf wahr gesetzt ist, wird er hochskaliert, wenn die Anzahl der Spark-Aufgaben 30 Sekunden lang gleich bleibt oder die aktuelle Batch-Verarbeitung größer als die Fenstergröße ist. Die Anzahl der Ausführer sinkt, wenn ein Ausführer länger als 60 Sekunden im Leerlauf war oder der exponentielle gleitende Durchschnitt der Batch-Dauer niedrig ist.
--class-
Die Scala-Klasse, die als Einstiegspunkt für Ihr Scala-Skript dient. Dies gilt nur, wenn die
--job-languageaufscalaeingestellt ist. --continuous-log-conversionPattern-
Gibt ein benutzerdefiniertes Konvertierungsprotokollmuster für einen Auftrag an, der für die kontinuierliche Protokollierung aktiviert ist. Das Konvertierungsmuster gilt nur für Treiberprotokolle und Executor-Protokolle. Dies wirkt sich nicht auf die AWS-Glue-Fortschrittsleiste aus.
--continuous-log-logGroup-
Gibt einen benutzerdefinierten Amazon-CloudWatch-Protokollgruppennamen für einen Auftrag an, der für kontinuierliche Protokollierung aktiviert ist.
--continuous-log-logStreamPrefix-
Gibt ein benutzerdefiniertes CloudWatch-Protokollstream-Präfix für einen Auftrag an, der für die kontinuierliche Protokollierung aktiviert ist.
--customer-driver-env-varsund--customer-executor-env-vars-
Diese Parameter legen Umgebungsvariablen im Betriebssystem für jeden Worker (Treiber oder Executor) fest. Sie können diese Parameter verwenden, wenn Sie Plattformen und benutzerdefinierte Frameworks erstellen, die auf AWS Glue basieren, damit Ihre Benutzer Aufträge darauf schreiben können. Wenn Sie diese beiden Flags aktivieren, können Sie unterschiedliche Umgebungsvariablen für den Treiber und den Executor festlegen, ohne dieselbe Logik in das Auftragsskript selbst einfügen zu müssen.
Beispielverwendung
Die folgende Abbildung zeigt ein Beispiel für die Verwendung dieser Parameter:
"—customer-driver-env-vars", "CUSTOMER_KEY1=VAL1,CUSTOMER_KEY2=\"val2,val2 val2\"", "—customer-executor-env-vars", "CUSTOMER_KEY3=VAL3,KEY4=VAL4"Diese Werte im Auftragsausführungsargument festzulegen, entspricht der Ausführung der folgenden Befehle:
Im Treiber:
export CUSTOMER_KEY1=VAL1
export CUSTOMER_KEY2="val2,val2 val2"
Im Executor:
export CUSTOMER_KEY3=VAL3
Anschließend können Sie im Auftragsskript selbst die Umgebungsvariablen mit
os.environ.get("CUSTOMER_KEY1")oderSystem.getenv("CUSTOMER_KEY1")abrufen.Erzwungene Syntax
Beachten Sie beim Definieren von Umgebungsvariablen die folgenden Standards:
Jeder Schlüssel muss das
CUSTOMER_ prefixhaben.Zum Beispiel: Für
"CUSTOMER_KEY3=VAL3,KEY4=VAL4"wirdKEY4=VAL4ignoriert und nicht festgelegt.Jedes Schlüssel/Wert-Paar muss durch ein einzelnes Komma abgegrenzt werden.
Beispiel:
"CUSTOMER_KEY3=VAL3,CUSTOMER_KEY4=VAL4"Wenn der „Wert“ Leerzeichen oder Kommas enthält, muss er in Anführungszeichen definiert werden.
Beispiel:
CUSTOMER_KEY2=\"val2,val2 val2\"
Diese Syntax ist den Standards für das Festlegen von Bash-Umgebungsvariablen sehr ähnlich.
--datalake-formats-
Unterstützt in AWS Glue 3.0 und neueren Versionen.
Gibt das zu verwendende Data Lake Framework an. AWS Glue fügt die erforderlichen JAR-Dateien für die Frameworks, die Sie angeben, in das
classpathhinzu. Weitere Informationen finden Sie unter Verwendung von Data-Lake-Frameworks mit AWS Glue-ETL-Aufträgen.Sie können einen oder mehrere der folgenden Werte durch Komma getrennt angeben:
-
hudi -
delta -
iceberg
Übergeben Sie beispielsweise das folgende Argument, um alle drei Frameworks anzugeben.
'--datalake-formats': 'hudi,delta,iceberg' -
--disable-proxy-v2-
Deaktivieren Sie den Service-Proxy, damit AWS Service-Aufrufe an Amazon S3, CloudWatch und AWS von Ihrem Skript aus über Ihre VPC tätigen kann. Weitere Informationen finden Sie unter Konfigurieren von AWS-Aufrufen, um Ihre VPC durchlaufen . Um den Service-Proxy zu deaktivieren, legen Sie den Wert dieses Parameters auf
truefest. --enable-auto-scaling-
Aktiviert Auto Scaling und die Abrechnung pro Worker, wenn der Wert auf
trueeingestellt wird. --enable-continuous-cloudwatch-log-
Unterstützt eine kontinuierliche Echtzeitprotokollierung für AWS-Glue-Aufträge. Sie können Apache-Spark-Auftragsprotokolle in Echtzeit in CloudWatch anzeigen.
--enable-continuous-log-filter-
Gibt einen Standardfilter (
true) oder keinen Filter (false) an, wenn Sie eine Aufgabe erstellen oder bearbeiten, die für die kontinuierliche Protokollierung aktiviert ist. Die Auswahl des Standardfilters beseitigt nicht nützliche Meldungen von Apache-Spark-Treibern/Executors sowie Apache Hadoop YARN-Heartbeat-Protokollmeldungen. Wenn Sie keinen Filter auswählen, erhalten Sie alle Protokollmeldungen. --enable-glue-datacatalog-
Ermöglicht es Ihnen, den AWS Glue Data Catalog als Apache-Spark-Hive-Metaspeicher zu verwenden. Um dieses Feature zu aktivieren, setzen Sie den Wert auf
true. --enable-job-insights-
Ermöglicht eine zusätzliche Fehleranalyseüberwachung mit Einblicken in die AWS-Glue-Auftragsausführung. Details hierzu finden Sie unter Überwachung mit Erkenntnissen in die AWS Glue-Auftragsausführung. Der Wert ist standardmäßig auf
truefestgelegt und Auftragsausführungs-Insights sind aktiviert.Diese Option ist für AWS-Glue-Version 2.0 und 3.0 verfügbar.
--enable-lakeformation-fine-grained-access-
Ermöglicht eine differenzierte Zugriffskontrolle für AWS-Glue-Aufträge. Weitere Informationen finden Sie unter Verwendung von AWS Glue mit AWS Lake Formation für eine feinkörnige Zugriffskontrolle.
--enable-metrics-
Aktiviert die Erfassung von Metriken für die Erstellung von Auftragsprofilen für diese Auftragsausführung. Diese Metriken stehen auf der AWS-Glue-Konsole und der Amazon-CloudWatch-Konsole zur Verfügung. Der Wert dieses Parameters ist nicht relevant. Um dieses Feature zu aktivieren, können Sie für diesen Parameter einen beliebigen Wert angeben. Aus Gründen der Übersichtlichkeit wird jedoch
trueempfohlen. Um dieses Feature zu deaktivieren, entfernen Sie diesen Parameter aus Ihrer Auftragskonfiguration. --enable-observability-metrics-
Aktiviert einen Satz Beobachtbarkeitsmetriken, um Erkenntnisse darüber zu gewinnen, was in jedem Auftrag passiert, der auf der Seite „Überwachung von Auftragsausführungen“ jeweils in der Konsole von AWS Glue und Amazon CloudWatch ausgeführt wird. Um dieses Feature zu aktivieren, setzen Sie den Wert dieses Parameters auf „true“. Um dieses Feature zu deaktivieren, setzen Sie ihn auf
falseoder entfernen Sie den Parameter aus der Auftragskonfiguration. --enable-rename-algorithm-v2-
Setzt die Version des EMRFS-Umbenennungsalgorithmus auf Version 2. Wenn ein Spark-Auftrag den dynamischen Partitionsüberschreibungsmodus verwendet, besteht die Möglichkeit, dass eine doppelte Partition erstellt wird. Zum Beispiel können Sie eine doppelte Partition wie
s3://bucket/table/location/p1=1/p1=1erhalten. Hier ist P1 die Partition, die überschrieben wird. Das Umbenennen des Algorithmus Version 2 behebt dieses Problem.Diese Option ist nur in der AWS Glue 1.0 verfügbar.
--enable-s3-parquet-optimized-committer-
Aktiviert den EMRFS-S3-optimierten Committer zum Schreiben von Parquet-Daten in Amazon S3. Sie können das Parameter-Wert-Paar über die AWS-Glue-Konsole bereitstellen, wenn Sie einen AWS-Glue-Auftrag erstellen oder aktualisieren. Durch Festlegen des Werts
truewird der Committer aktiviert. Standardmäßig ist das Flag in AWS Glue 3.0 aktiviert und in AWS Glue 2.0 deaktiviert.Weitere Informationen finden Sie unter Verwenden der EMRFS S3-optimierten Committer-Klasse.
--enable-spark-ui-
Bei Einstellung auf
truewird das Feature zur Verwendung der Spark-Benutzeroberfläche zum Überwachen und Debuggen von AWS-Glue-ETL-Aufträgen aktiviert. --executor-cores-
Anzahl der Spark-Aufgaben, die parallel ausgeführt werden können. Diese Option wird auf AWS Glue 3.0+ unterstützt. Der Wert sollte das Zweifache der Anzahl der vCPUs auf dem Worker-Typ nicht überschreiten, also 8
G.1X, 16 aufG.2X, 32 aufG.4X, 64 aufG.8X, 96 aufG.12X, 128 aufG.16Xund 8 aufR.1X, 16 aufR.2X, 32 aufR.4X, 64 aufR.8X. Sie sollten bei der Aktualisierung dieser Konfiguration vorsichtig sein, da sie sich auf die Leistung des Auftrags auswirken könnte. Eine erhöhte Parallelität der Aufgaben führt nämlich zu Speicher- und Festplattendruck sowie zu einer Drosselung der Quell- und Zielsysteme (z. B. würde dies zu mehr gleichzeitigen Verbindungen in Amazon RDS führen). --extra-files-
Die Amazon-S3-Pfade zu zusätzlichen Dateien, z. B. Konfigurationsdateien, die AWS Glue vor der Ausführung in das Arbeitsverzeichnis Ihres Skripts im Treiberknoten kopiert. Mehrere Werte müssen vollständige Pfade sein, die durch Kommas (
,) getrennt werden. Bei dem Wert kann es sich um einzelne Dateien oder Verzeichnisse handeln. Diese Option wird für Python-Shell-Auftragstypen nicht unterstützt. --extra-jars-
Die Amazon-S3-Pfade zu zusätzlichen Dateien, die AWS Glue in Treiber und Executors kopiert. AWS Glue fügt diese Dateien auch dem Java-Klassenpfad hinzu, bevor Ihr Skript ausgeführt wird. Mehrere Werte müssen vollständige Pfade sein, die durch Kommas (
,) getrennt werden. Die Dateinamenerweiterung muss nicht.jarsein. --extra-py-files-
Die Amazon-S3-Pfade zu zusätzlichen Python-Modulen, die AWS Glue vor der Ausführung Ihres Skripts zum Python-Pfad im Treiberknoten hinzufügt. Mehrere Werte müssen vollständige Pfade sein, die durch Kommas (
,) getrennt werden. Es werden nur einzelne Dateien unterstützt, kein Verzeichnispfad. --job-bookmark-option-
Steuert die Darstellung eines Auftrags-Lesezeichens. Die folgenden Optionswerte können festgelegt werden:
‑‑job‑bookmark‑option-Wert Beschreibung job-bookmark-enableBereits verarbeitete Daten nachverfolgen. Wenn ein Auftrag ausgeführt wird, werden neue Daten seit dem letzten Checkpoint verarbeitet. job-bookmark-disableImmer das gesamte Dataset verarbeiten. Sie sind für die Verwaltung der Ausgaben aus früheren Auftragsausführungen verantwortlich. job-bookmark-pauseVerarbeiten inkrementeller Daten seit der letzten erfolgreichen Ausführung oder der Daten in dem durch die folgenden Unteroptionen identifizierten Bereich, ohne den Status des letzten Lesezeichens zu aktualisieren. Sie sind für die Verwaltung der Ausgaben aus früheren Auftragsausführungen verantwortlich. Die beiden Unteroptionen lauten wie folgt: -
job-bookmark-from<from-value>ist die Ausführungs-ID, die alle Eingaben darstellt, die bis zur letzten erfolgreichen Ausführung vor und einschließlich der angegebenen Ausführungs-ID verarbeitet wurden. Die entsprechende Eingabe wird ignoriert. -
job-bookmark-to<to-value>ist die Ausführungs-ID, die alle Eingaben darstellt, die bis zur letzten erfolgreichen Ausführung vor und einschließlich der angegebenen Ausführungs-ID verarbeitet wurden. Die entsprechende Eingabe ohne die Eingabe, die durch den<from-value>identifiziert wird, wird von der Aufgabe verarbeitet. Jede Eingabe, die später als diese Eingabe ist, wird auch aus der Verarbeitung ausgeschlossen.
Der Auftrags-Lesezeichenstatus wird nicht aktualisiert, wenn dieser Optionssatz angegeben wird.
Die Unteroptionen sind optional. Bei ihrer Verwendung müssen jedoch beide Unteroptionen angegeben werden.
Um beispielsweise ein Aufgabenlesezeichen zu aktivieren, übergeben Sie das folgende Argument:
'--job-bookmark-option': 'job-bookmark-enable' -
--job-language-
Die Skript-Programmiersprache. Dieser Wert muss entweder
scalaoderpythonsein. Wenn dieser Parameter nicht vorhanden ist, ist der Standardwertpython. --python-modules-installer-option-
Eine Klartextzeichenfolge, die Optionen definiert, die an
pip3übergeben werden, wenn Module mit --additional-python-modules installiert werden. Stellen Sie Optionen wie in der Befehlszeile bereit, getrennt durch Leerzeichen und mit vorangestellten Bindestrichen. Weitere Informationen zur Verwendung finden Sie unter Installation zusätzlicher Python-Module mit Pip in AWS Glue 2.0 oder höher.Anmerkung
Diese Option wird für AWS-Glue-Aufträge nicht unterstützt, wenn Sie Python 3.9 verwenden.
--scriptLocation-
Der Amazon Simple Storage Service (Amazon S3)-Speicherort, an dem Ihr ETL-Skript abgelegt ist (im Format
s3://path/to/my/script.py). Dieser Parameter überschreibt einen Skript-Speicherort imJobCommand-Objekt. --spark-event-logs-path-
Gibt einen Amazon-S3-Pfad an. Wenn Sie die Spark-UI-Überwachungsfunktion verwenden, bereinigt AWS Glue die Spark-Ereignisprotokolle alle 30 Sekunden in diesem Amazon-S3-Pfad über einen Bucket, der als temporäres Verzeichnis zum Speichern von Spark-UI-Ereignissen verwendet werden kann.
--TempDir-
Gibt einen Amazon-S3-Pfad zu einem Bucket an, der als temporäres Verzeichnis für den Auftrag verwendet werden kann.
Um beispielsweise ein temporäres Verzeichnis zu setzen, übergeben Sie das Argument:
'--TempDir': 's3-path-to-directory'Anmerkung
AWS Glue erstellt einen temporären Bucket für Aufträge, wenn in einer Region noch kein Bucket vorhanden ist. Dieser Bucket erlaubt möglicherweise den öffentlichen Zugriff. Sie können entweder den Bucket in Amazon S3 ändern, um die öffentliche Zugriffssperre festzulegen, oder den Bucket später löschen, nachdem alle Aufträge in dieser Region abgeschlossen sind.
--use-postgres-driver-
Wenn Sie diesen Wert auf
truesetzen, wird der Postgres-JDBC-Treiber im Klassenpfad priorisiert, um einen Konflikt mit dem Amazon-Redshift-JDBC-Treiber zu vermeiden. Diese Option ist nur in der AWS Glue 2.0 verfügbar. --user-jars-first-
Wenn Sie diesen Wert auf
truesetzen, werden die zusätzlichen JAR-Dateien des Kunden im Klassenpfad priorisiert. Diese Option ist nur ab AWS Glue 2.0 verfügbar. --conf-
Sie steuert die Spark-Konfigurationsparameter. Sie ist für fortschrittliche Anwendungsfälle.
--encryption-type-
Legacy-Parameter. Das entsprechende Verhalten sollte über Sicherheitskonfigurationen konfiguriert werden. Weitere Informationen zu Sicherheitskonfigurationen finden Sie unter Verschlüsseln von Daten, die von AWS Glue geschrieben werden.
AWS Glue verwendet intern die folgenden Argumente und Sie sollten sie niemals verwenden:
-
--debug– Intern bei AWS Glue. Nicht einstellen. -
--mode– Intern bei AWS Glue. Nicht einstellen. -
--JOB_NAME– Intern bei AWS Glue. Nicht einstellen. -
--endpoint– Intern bei AWS Glue. Nicht einstellen.
AWS Glue unterstützt das Bootstrapping einer Umgebung mit dem site-Modul von Python unter Verwendung von sitecustomize, um standortspezifische Anpassungen durchzuführen. Das Bootstrapping Ihrer eigenen Initialisierungsfunktionen wird nur für fortgeschrittene Anwendungsfälle empfohlen und wird mithilfe von AWS Glue 4.0 nach bestem Wissen und Gewissen unterstützt.
Das Präfix der Umgebungsvariablen, GLUE_CUSTOMER, ist für die Verwendung durch Kunden reserviert.