AWS Glue Typen von Arbeitern - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

AWS Glue Typen von Arbeitern

Übersicht

AWS Glue bietet mehrere Workertypen, um unterschiedlichen Workload-Anforderungen gerecht zu werden, von kleinen Streaming-Jobs bis hin zu umfangreichen, speicherintensiven Datenverarbeitungsaufgaben. Dieser Abschnitt enthält umfassende Informationen zu allen verfügbaren Workertypen, ihren Spezifikationen und Verwendungsempfehlungen.

Kategorien der Arbeitnehmertypen

AWS Glue bietet zwei Hauptkategorien von Arbeitnehmertypen:

  • G-Worker-Typen: Allzweck-Computing-Worker, die für Standard-ETL-Workloads optimiert sind

  • R-Worker-Typen: Speicheroptimierte Worker, die für speicherintensive Spark-Anwendungen konzipiert wurden

Datenverarbeitungseinheiten () DPUs

Die den AWS Glue Arbeitnehmern zur Verfügung stehenden Ressourcen werden in gemessen DPUs. Eine DPU ist ein relatives Maß für die Rechenleistung, die sich aus 4 V CPUs Rechenkapazität und 16 GB Arbeitsspeicher zusammensetzt.

Speicheroptimiert DPUs (M-DPUs): Worker vom Typ R verwenden M-DPUs, wodurch im Vergleich zum Standard die doppelte Speicherzuweisung für eine bestimmte Größe bereitgestellt wird. DPUs Das bedeutet, dass eine Standard-DPU 16 GB Speicher bereitstellt, während eine M-DPU in Workern vom Typ R 32 GB Speicher bereitstellt, der für speicherintensive Spark-Anwendungen optimiert ist.

Verfügbare Worker-Typen

G.1X - Standardarbeiter

  • DPU: 1 DPU (4 VCPUs, 16 GB Speicher)

  • Speicher: 94 GB Festplatte (ca. 44 GB frei)

  • Anwendungsfall: Datentransformationen, Verknüpfungen und Abfragen — skalierbar und kostengünstig für die meisten Aufgaben

G.2X — Standardarbeiter

  • DPU: 2 DPU (8 VCPUs, 32 GB Speicher)

  • Speicher: 138 GB Festplatte (ca. 78 GB frei)

  • Anwendungsfall: Datentransformationen, Verknüpfungen und Abfragen — skalierbar und kostengünstig für die meisten Aufgaben

G.4X — Großer Arbeiter

  • DPU: 4 DPU (16 VCPUs, 64 GB Speicher)

  • Speicher: 256 GB Festplatte (ca. 230 GB frei)

  • Anwendungsfall: Anspruchsvolle Transformationen, Aggregationen, Verknüpfungen und Abfragen

G.8X — Sehr großer Arbeiter

  • DPU: 8 DPU (32 VCPUs, 128 GB Speicher)

  • Speicher: 512 GB Festplatte (ca. 485 GB frei)

  • Anwendungsfall: Die anspruchsvollsten Transformationen, Aggregationen, Verknüpfungen und Abfragen

G.12X — Sehr großer Arbeiter*

  • DPU: 12 DPU (48 V, 192 GB Speicher) CPUs

  • Speicher: 768 GB Festplatte (ca. 741 GB frei)

  • Anwendungsfall: Sehr große und ressourcenintensive Workloads, die eine erhebliche Rechenkapazität erfordern

G.16X — Maximaler Mitarbeiter*

  • DPU: 16 DPU (64 V, 256 GB Speicher) CPUs

  • Speicher: 1024 GB Festplatte (ca. 996 GB frei)

  • Anwendungsfall: Größte und ressourcenintensivste Workloads, die maximale Rechenkapazität erfordern

R.1X — Speicheroptimiert klein*

  • DPU: 1 M-DPU (4 V, 32 GB Speicher) CPUs

  • Anwendungsfall: Speicherintensive Workloads mit häufigen Fehlern oder hohen Ratio-Anforderungen out-of-memory memory-to-CPU

R.2X — Speicheroptimiertes Medium*

  • DPU: 2 M-DPU (8 V, 64 GB Speicher) CPUs

  • Anwendungsfall: Speicherintensive Workloads mit häufigen Fehlern oder hohen Ratio-Anforderungen out-of-memory memory-to-CPU

R.4X — Speicheroptimiert groß*

  • DPU: 4 M-DPU (16 V, 128 GB Speicher) CPUs

  • Anwendungsfall: Große speicherintensive Workloads mit häufigen Fehlern oder hohen Verhältnisanforderungen out-of-memory memory-to-CPU

R.8X — Speicheroptimiert, extra groß*

  • DPU: 8 M-DPU (32 V, 256 GB Speicher) CPUs

  • Anwendungsfall: Sehr große speicherintensive Workloads mit häufigen Fehlern oder hohen Verhältnisanforderungen out-of-memory memory-to-CPU

* Bei diesen Workern kann es zu einer höheren Startlatenz kommen. Versuchen Sie, das Problem wie folgt zu beheben:

  • Warten Sie ein paar Minuten und reichen Sie Ihren Job dann erneut ein.

  • Reichen Sie einen neuen Job mit einer reduzierten Anzahl von Mitarbeitern ein.

  • Reichen Sie einen neuen Job mit einem anderen Arbeitnehmertyp oder einer anderen Mitarbeitergröße ein.

Tabelle mit Spezifikationen für den Arbeitnehmertyp

Spezifikationen für den Arbeitnehmertyp
Art des Arbeitnehmers DPU pro Knoten vCPU Speicher (GB) Festplatte (GB) Freier Festplattenspeicher (GB) Spark-Executoren pro Knoten
G.1X 1 4 16 94 44 1
G.2X 2 8 32 138 78 1
G.4X 4 16 64 256 230 1
G.8X 8 32 128 512 485 1
G12X 12 48 192 768 741 1
G.16X 16 64 256 1024 996 1

Hinweis: R-Worker-Typen verfügen über speicheroptimierte Konfigurationen mit Spezifikationen, die für speicherintensive Workloads optimiert sind.

Wichtige Überlegungen

Latenz beim Start

Wichtig

Bei den Workertypen G.12X und G.16X sowie bei allen R-Workertypen (R.1X bis R.8X) kann es zu einer höheren Startlatenz kommen. Versuchen Sie, das Problem wie folgt zu beheben:

  • Warten Sie ein paar Minuten und reichen Sie Ihren Job dann erneut ein.

  • Reichen Sie einen neuen Job mit einer reduzierten Anzahl von Mitarbeitern ein.

  • Reichen Sie einen neuen Job mit einem anderen Mitarbeitertyp und einer anderen Mitarbeitergröße ein.

Auswahl des richtigen Arbeitnehmertyps

Für Standard-ETL-Workloads

  • G.1X oder G.2X: Am kostengünstigsten für typische Datentransformationen, Verknüpfungen und Abfragen

  • G.4X oder G.8X: Für anspruchsvollere Workloads mit größeren Datensätzen

Für umfangreiche Workloads

  • G.12X: Sehr große Datensätze, die erhebliche Rechenressourcen erfordern

  • G.16X: Maximale Rechenkapazität für die anspruchsvollsten Workloads

Für speicherintensive Workloads

  • R.1X oder R.2X: Kleine bis mittlere speicherintensive Jobs

  • R.4X oder R.8X: Große speicherintensive Workloads mit häufigen OOM-Fehlern

Überlegungen zur Kostenoptimierung

  • Standard G-Worker: Stellen ein ausgewogenes Verhältnis von Rechen-, Arbeitsspeicher- und Netzwerkressourcen bereit und können für eine Vielzahl unterschiedlicher Workloads zu geringeren Kosten eingesetzt werden

  • R-Worker: Spezialisiert auf speicherintensive Aufgaben mit schneller Leistung für Workloads, die große Datenmengen im Speicher verarbeiten

Bewährte Methoden

Richtlinien für die Auswahl von Arbeitnehmern

  1. Beginnen Sie für die meisten Workloads mit Standardarbeitern (G.1X, G.2X)

  2. Verwenden Sie R-Worker bei häufigen out-of-memory Fehlern oder Workloads mit speicherintensiven Vorgängen wie Zwischenspeichern, Mischen und Aggregieren

  3. Ziehen Sie G.12X/G.16X für rechenintensive Workloads in Betracht, die maximale Ressourcen erfordern

  4. Berücksichtigen Sie Kapazitätsengpässe, wenn Sie neue Mitarbeitertypen in zeitkritischen Workflows verwenden

Leistungsoptimierung

  • Überwachen Sie CloudWatch Kennzahlen, um die Ressourcennutzung besser zu verstehen

  • Verwenden Sie je nach Datengröße und Komplexität eine angemessene Anzahl von Mitarbeitern

  • Erwägen Sie Strategien zur Datenpartitionierung, um die Effizienz der Mitarbeiter zu optimieren