AWS Glue tipi di lavoratori - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS Glue tipi di lavoratori

Panoramica

AWS Glue offre diversi tipi di lavoratori per soddisfare diversi requisiti di carico di lavoro, da piccoli lavori di streaming a attività di elaborazione dati su larga scala e che richiedono molta memoria. Questa sezione fornisce informazioni complete su tutti i tipi di lavoratori disponibili, le relative specifiche e i consigli di utilizzo.

Categorie di tipi di lavoratore

AWS Glue offre due categorie principali di tipi di lavoratori:

  • G Worker Types: lavoratori di elaborazione generici ottimizzati per carichi di lavoro ETL standard

  • Tipi di R Worker: Worker ottimizzati per la memoria progettati per applicazioni Spark che richiedono molta memoria

Unità di elaborazione dati () DPUs

Le risorse disponibili per i AWS Glue lavoratori sono misurate in DPUs. Una DPU è una misura relativa della potenza di elaborazione costituita da 4 V CPUs di capacità di elaborazione e 16 GB di memoria.

Ottimizzata per la memoria DPUs (M-DPUs): i lavoratori di tipo R utilizzano M-DPUs, che fornisce il doppio dell'allocazione di memoria per una determinata dimensione rispetto allo standard. DPUs Ciò significa che mentre una DPU standard fornisce 16 GB di memoria, una M-DPU di tipo R fornisce 32 GB di memoria ottimizzata per le applicazioni Spark che richiedono molta memoria.

Tipi di lavoratori disponibili

G.1X - Operatore standard

  • DPU: 1 DPU (4 vCPUs, 16 GB di memoria)

  • Memoria: disco da 94 GB (circa 44 GB gratuiti)

  • Caso d'uso: trasformazioni, unioni e interrogazioni dei dati: scalabile e conveniente per la maggior parte dei lavori

G.2X - Standard Worker

  • DPU: 2 DPU (8 vCPUs, 32 GB di memoria)

  • Memoria: disco da 138 GB (circa 78 GB gratuiti)

  • Caso d'uso: trasformazioni, unioni e interrogazioni dei dati: scalabile e conveniente per la maggior parte dei lavori

G.4X - Large Worker

  • DPU: 4 DPU (16 vCPUs, 64 GB di memoria)

  • Memoria: disco da 256 GB (circa 230 GB gratuiti)

  • Caso d'uso: trasformazioni, aggregazioni, unioni e interrogazioni impegnative

G.8X - Extra Large Worker

  • DPU: 8 DPU (32 vCPUs, 128 GB di memoria)

  • Memoria: disco da 512 GB (circa 485 GB gratuiti)

  • Caso d'uso: le trasformazioni, le aggregazioni, le unioni e le interrogazioni più impegnative

G.12X - Very Large Worker*

  • DPU: 12 DPU (48 v, 192 GB di memoria) CPUs

  • Memoria: disco da 768 GB (circa 741 GB gratuiti)

  • Caso d'uso: carichi di lavoro molto grandi e che richiedono molte risorse che richiedono una notevole capacità di elaborazione

G.16X - Numero massimo di lavoratori*

  • DPU: 16 DPU (64 v, 256 GB di memoria) CPUs

  • Memoria: disco da 1024 GB (circa 996 GB gratuiti)

  • Caso d'uso: carichi di lavoro più grandi e a uso intensivo di risorse che richiedono la massima capacità di elaborazione

R.1X - Dimensioni ridotte ottimizzate per la memoria*

  • DPU: 1 M-DPU (4 v, 32 GB di memoria) CPUs

  • Caso d'uso: carichi di lavoro a uso intensivo di memoria con errori frequenti o requisiti di rapporto elevato out-of-memory memory-to-CPU

R.2X - Supporto ottimizzato per la memoria*

  • DPU: 2 M-DPU (8 v, 64 GB di memoria) CPUs

  • Caso d'uso: carichi di lavoro a uso intensivo di memoria con errori frequenti o requisiti di rapporto elevato out-of-memory memory-to-CPU

R.4X - Ampia memoria ottimizzata*

  • DPU: 4 M-DPU (16 v, 128 GB di memoria) CPUs

  • Caso d'uso: grandi carichi di lavoro che richiedono molta memoria con errori frequenti o requisiti di rapporto elevato out-of-memory memory-to-CPU

R.8X - Extra Large ottimizzato per la memoria*

  • DPU: 8 M-DPU (32 v, 256 GB di memoria) CPUs

  • Caso d'uso: carichi di lavoro molto grandi che richiedono molta memoria con errori frequenti o requisiti di rapporto elevato out-of-memory memory-to-CPU

* È possibile riscontrare una maggiore latenza di avvio con questi lavoratori. Per risolvere il problema, prova a eseguire queste operazioni:

  • Attendi qualche minuto e poi invia nuovamente il lavoro.

  • Invia un nuovo lavoro con un numero ridotto di lavoratori.

  • Invia un nuovo lavoro utilizzando un tipo o una dimensione di lavoratore diversi.

Tabella delle specifiche del tipo di lavoratore

Specifiche del tipo di lavoratore
Tipo di lavoratore DPU per nodo VPCU Memoria (GB) Disco (GB) Spazio libero su disco (GB) Spark Executor per nodo
G.1X 1 4 16 94 44 1
G.2X 2 8 32 138 78 1
G. 4 X 4 16 64 256 230 1
G.8 X 8 32 128 512 485 1
G.12X 12 48 192 768 741 1
G.16X 16 64 256 1024 996 1

Nota: i tipi di worker R hanno configurazioni ottimizzate per la memoria con specifiche ottimizzate per carichi di lavoro che richiedono molta memoria.

Considerazioni importanti

Latenza di avvio

Importante

I tipi di worker G.12X e G.16X, così come tutti i tipi di worker R (da R.1X a R.8X), potrebbero riscontrare una latenza di avvio più elevata. Per risolvere il problema, prova a eseguire queste operazioni:

  • Attendi qualche minuto e poi invia nuovamente il lavoro.

  • Invia un nuovo lavoro con un numero ridotto di lavoratori.

  • Invia un nuovo lavoro utilizzando un tipo e una dimensione di lavoratore diversi.

Scelta del tipo di lavoratore giusto

Per carichi di lavoro ETL standard

  • G.1X o G.2X: la soluzione più conveniente per le trasformazioni, i join e le query tipiche dei dati

  • G.4X o G.8X: per carichi di lavoro più impegnativi con set di dati più grandi

Per carichi di lavoro su larga scala

  • G.12X: set di dati molto grandi che richiedono risorse di elaborazione significative

  • G.16X: capacità di elaborazione massima per i carichi di lavoro più impegnativi

Per carichi di lavoro che richiedono molta memoria

  • R.1X o R.2X: lavori con uso intensivo di memoria da piccolo a medio

  • R.4X o R.8X: carichi di lavoro di grandi dimensioni che richiedono molta memoria con frequenti errori OOM

Considerazioni sull'ottimizzazione dei costi

  • Standard G worker: forniscono un equilibrio tra risorse di elaborazione, memoria e rete e possono essere utilizzati per una varietà di carichi di lavoro diversi a costi inferiori

  • R worker: specializzati per attività a uso intensivo di memoria con prestazioni rapide per carichi di lavoro che elaborano set di dati di grandi dimensioni in memoria

Best practice

Linee guida sulla selezione dei lavoratori

  1. Inizia con lavoratori standard (G.1X, G.2X) per la maggior parte dei carichi di lavoro

  2. Usa R worker in caso di out-of-memory errori o carichi di lavoro frequenti con operazioni che richiedono molta memoria come caching, shuffling e aggregazione

  3. Prendi in considerazione G.12X/G.16X per carichi di lavoro ad alta intensità di calcolo che richiedono il massimo delle risorse

  4. Tieni conto dei vincoli di capacità quando utilizzi nuovi tipi di lavoratori in flussi di lavoro in cui il fattore tempo è fondamentale

Ottimizzazione delle prestazioni

  • Monitora le CloudWatch metriche per comprendere l'utilizzo delle risorse

  • Utilizza un numero di lavoratori appropriato in base alla dimensione e alla complessità dei dati

  • Prendi in considerazione strategie di partizionamento dei dati per ottimizzare l'efficienza dei lavoratori