Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS Glue tipi di lavoratori
Panoramica
AWS Glue offre diversi tipi di lavoratori per soddisfare diversi requisiti di carico di lavoro, da piccoli lavori di streaming a attività di elaborazione dati su larga scala e che richiedono molta memoria. Questa sezione fornisce informazioni complete su tutti i tipi di lavoratori disponibili, le relative specifiche e i consigli di utilizzo.
Categorie di tipi di lavoratore
AWS Glue offre due categorie principali di tipi di lavoratori:
-
G Worker Types: lavoratori di elaborazione generici ottimizzati per carichi di lavoro ETL standard
-
Tipi di R Worker: Worker ottimizzati per la memoria progettati per applicazioni Spark che richiedono molta memoria
Unità di elaborazione dati () DPUs
Le risorse disponibili per i AWS Glue lavoratori sono misurate in DPUs. Una DPU è una misura relativa della potenza di elaborazione costituita da 4 V CPUs di capacità di elaborazione e 16 GB di memoria.
Ottimizzata per la memoria DPUs (M-DPUs): i lavoratori di tipo R utilizzano M-DPUs, che fornisce il doppio dell'allocazione di memoria per una determinata dimensione rispetto allo standard. DPUs Ciò significa che mentre una DPU standard fornisce 16 GB di memoria, una M-DPU di tipo R fornisce 32 GB di memoria ottimizzata per le applicazioni Spark che richiedono molta memoria.
Tipi di lavoratori disponibili
G.1X - Operatore standard
DPU: 1 DPU (4 vCPUs, 16 GB di memoria)
Memoria: disco da 94 GB (circa 44 GB gratuiti)
Caso d'uso: trasformazioni, unioni e interrogazioni dei dati: scalabile e conveniente per la maggior parte dei lavori
G.2X - Standard Worker
DPU: 2 DPU (8 vCPUs, 32 GB di memoria)
Memoria: disco da 138 GB (circa 78 GB gratuiti)
Caso d'uso: trasformazioni, unioni e interrogazioni dei dati: scalabile e conveniente per la maggior parte dei lavori
G.4X - Large Worker
DPU: 4 DPU (16 vCPUs, 64 GB di memoria)
Memoria: disco da 256 GB (circa 230 GB gratuiti)
Caso d'uso: trasformazioni, aggregazioni, unioni e interrogazioni impegnative
G.8X - Extra Large Worker
DPU: 8 DPU (32 vCPUs, 128 GB di memoria)
Memoria: disco da 512 GB (circa 485 GB gratuiti)
Caso d'uso: le trasformazioni, le aggregazioni, le unioni e le interrogazioni più impegnative
G.12X - Very Large Worker*
DPU: 12 DPU (48 v, 192 GB di memoria) CPUs
Memoria: disco da 768 GB (circa 741 GB gratuiti)
Caso d'uso: carichi di lavoro molto grandi e che richiedono molte risorse che richiedono una notevole capacità di elaborazione
G.16X - Numero massimo di lavoratori*
DPU: 16 DPU (64 v, 256 GB di memoria) CPUs
Memoria: disco da 1024 GB (circa 996 GB gratuiti)
Caso d'uso: carichi di lavoro più grandi e a uso intensivo di risorse che richiedono la massima capacità di elaborazione
R.1X - Dimensioni ridotte ottimizzate per la memoria*
DPU: 1 M-DPU (4 v, 32 GB di memoria) CPUs
Caso d'uso: carichi di lavoro a uso intensivo di memoria con errori frequenti o requisiti di rapporto elevato out-of-memory memory-to-CPU
R.2X - Supporto ottimizzato per la memoria*
DPU: 2 M-DPU (8 v, 64 GB di memoria) CPUs
Caso d'uso: carichi di lavoro a uso intensivo di memoria con errori frequenti o requisiti di rapporto elevato out-of-memory memory-to-CPU
R.4X - Ampia memoria ottimizzata*
DPU: 4 M-DPU (16 v, 128 GB di memoria) CPUs
Caso d'uso: grandi carichi di lavoro che richiedono molta memoria con errori frequenti o requisiti di rapporto elevato out-of-memory memory-to-CPU
R.8X - Extra Large ottimizzato per la memoria*
DPU: 8 M-DPU (32 v, 256 GB di memoria) CPUs
Caso d'uso: carichi di lavoro molto grandi che richiedono molta memoria con errori frequenti o requisiti di rapporto elevato out-of-memory memory-to-CPU
* È possibile riscontrare una maggiore latenza di avvio con questi lavoratori. Per risolvere il problema, prova a eseguire queste operazioni:
Attendi qualche minuto e poi invia nuovamente il lavoro.
Invia un nuovo lavoro con un numero ridotto di lavoratori.
Invia un nuovo lavoro utilizzando un tipo o una dimensione di lavoratore diversi.
Tabella delle specifiche del tipo di lavoratore
Tipo di lavoratore | DPU per nodo | VPCU | Memoria (GB) | Disco (GB) | Spazio libero su disco (GB) | Spark Executor per nodo |
---|---|---|---|---|---|---|
G.1X | 1 | 4 | 16 | 94 | 44 | 1 |
G.2X | 2 | 8 | 32 | 138 | 78 | 1 |
G. 4 X | 4 | 16 | 64 | 256 | 230 | 1 |
G.8 X | 8 | 32 | 128 | 512 | 485 | 1 |
G.12X | 12 | 48 | 192 | 768 | 741 | 1 |
G.16X | 16 | 64 | 256 | 1024 | 996 | 1 |
Nota: i tipi di worker R hanno configurazioni ottimizzate per la memoria con specifiche ottimizzate per carichi di lavoro che richiedono molta memoria.
Considerazioni importanti
Latenza di avvio
Importante
I tipi di worker G.12X e G.16X, così come tutti i tipi di worker R (da R.1X a R.8X), potrebbero riscontrare una latenza di avvio più elevata. Per risolvere il problema, prova a eseguire queste operazioni:
Attendi qualche minuto e poi invia nuovamente il lavoro.
Invia un nuovo lavoro con un numero ridotto di lavoratori.
Invia un nuovo lavoro utilizzando un tipo e una dimensione di lavoratore diversi.
Scelta del tipo di lavoratore giusto
Per carichi di lavoro ETL standard
G.1X o G.2X: la soluzione più conveniente per le trasformazioni, i join e le query tipiche dei dati
G.4X o G.8X: per carichi di lavoro più impegnativi con set di dati più grandi
Per carichi di lavoro su larga scala
G.12X: set di dati molto grandi che richiedono risorse di elaborazione significative
G.16X: capacità di elaborazione massima per i carichi di lavoro più impegnativi
Per carichi di lavoro che richiedono molta memoria
R.1X o R.2X: lavori con uso intensivo di memoria da piccolo a medio
R.4X o R.8X: carichi di lavoro di grandi dimensioni che richiedono molta memoria con frequenti errori OOM
Considerazioni sull'ottimizzazione dei costi
Standard G worker: forniscono un equilibrio tra risorse di elaborazione, memoria e rete e possono essere utilizzati per una varietà di carichi di lavoro diversi a costi inferiori
R worker: specializzati per attività a uso intensivo di memoria con prestazioni rapide per carichi di lavoro che elaborano set di dati di grandi dimensioni in memoria
Best practice
Linee guida sulla selezione dei lavoratori
Inizia con lavoratori standard (G.1X, G.2X) per la maggior parte dei carichi di lavoro
Usa R worker in caso di out-of-memory errori o carichi di lavoro frequenti con operazioni che richiedono molta memoria come caching, shuffling e aggregazione
Prendi in considerazione G.12X/G.16X per carichi di lavoro ad alta intensità di calcolo che richiedono il massimo delle risorse
Tieni conto dei vincoli di capacità quando utilizzi nuovi tipi di lavoratori in flussi di lavoro in cui il fattore tempo è fondamentale
Ottimizzazione delle prestazioni
Monitora le CloudWatch metriche per comprendere l'utilizzo delle risorse
Utilizza un numero di lavoratori appropriato in base alla dimensione e alla complessità dei dati
Prendi in considerazione strategie di partizionamento dei dati per ottimizzare l'efficienza dei lavoratori