Panoramica di Tipi di worker disponibili Tabella delle specifiche del tipo di worker Considerazioni importanti Scegliere il tipo di worker giusto Considerazioni per l'ottimizzazione dei costi Best practice

AWS Glue tipi di lavoratori

Panoramica di

AWS Glue offre diversi tipi di lavoratori per soddisfare diversi requisiti di carico di lavoro, da piccoli lavori in streaming a attività di elaborazione dati su larga scala e che richiedono molta memoria. Questa sezione fornisce informazioni complete su tutti i tipi di worker disponibili, le relative specifiche e i consigli di utilizzo.

Categorie di tipi di worker

AWS Glue offre due categorie principali di tipi di lavoratori:

Tipi di worker G: elaboratori generici ottimizzati per carichi di lavoro ETL standard
Tipi di worker R: worker ottimizzati per la memoria progettati per applicazioni Spark che richiedono molta memoria

Unità di elaborazione dati (DPUs)

Le risorse disponibili per i AWS Glue lavoratori sono misurate in DPUs. Una DPU è una misura relativa della potenza di elaborazione costituita da 4 V CPUs di capacità di elaborazione e 16 GB di memoria.

Ottimizzato per la memoria DPUs (M-DPUs): i lavoratori di tipo R utilizzano M-DPUs, che fornisce il doppio dell'allocazione di memoria per una determinata dimensione rispetto allo standard. DPUs Ciò significa che mentre una DPU standard fornisce 16 GB di memoria, una M-DPU di tipo R fornisce 32 GB di memoria ottimizzata per le applicazioni Spark a uso intensivo di memoria.

Tipi di worker disponibili

G.1X

DPU: 1 DPU (4 vCPUs, 16 GB di memoria)
Memoria: disco da 94 GB (circa 44 GB liberi)
Caso d'uso: trasformazioni, unioni e query di dati: scalabile e conveniente per la maggior parte dei processi

G.2X

DPU: 2 DPU (8 vCPUs, 32 GB di memoria)
Memoria: disco da 138 GB (circa 78 GB liberi)
Caso d'uso: trasformazioni, unioni e query di dati: scalabile e conveniente per la maggior parte dei processi

G.4X

DPU: 4 DPU (16 vCPUs, 64 GB di memoria)
Memoria: disco da 256 GB (circa 230 GB liberi)
Caso d'uso: trasformazioni, aggregazioni, join e query con i maggiori requisiti

G.8X

DPU: 8 DPU (32 vCPUs, 128 GB di memoria)
Memoria: disco da 512 GB (circa 485 GB liberi)
Caso d'uso: trasformazioni, aggregazioni, join e query con i maggiori requisiti

G.12X

DPU: 12 DPU (48 vCPUs, 192 GB di memoria)
Memoria: disco da 768 GB (circa 741 GB liberi)
Caso d'uso: carichi di lavoro molto grandi e che richiedono molte risorse con una notevole capacità di elaborazione

G.16X

DPU: 16 DPU (64 vCPUs, 256 GB di memoria)
Memoria: disco da 1024 GB (circa 996 GB liberi)
Caso d'uso: carichi di lavoro più grandi in assoluto e che richiedono la maggiore capacità di elaborazione possibile

R.1X - Ottimizzato per la memoria*

DPU: 1 M-DPU (4 v, 32 GB di memoria) CPUs
Caso d'uso: carichi di lavoro a uso intensivo di memoria con errori frequenti o requisiti di rapporto elevato out-of-memory memory-to-CPU

R.2X - Ottimizzato per la memoria*

DPU: 2 M-DPU (8 v, 64 GB di memoria) CPUs
Caso d'uso: carichi di lavoro a uso intensivo di memoria con errori frequenti o requisiti di rapporto elevato out-of-memory memory-to-CPU

R.4X - Ottimizzato per la memoria*

DPU: 4 M-DPU (16 v, 128 GB di memoria) CPUs
Caso d'uso: grandi carichi di lavoro che richiedono molta memoria con errori frequenti o requisiti di rapporto elevato out-of-memory memory-to-CPU

R.8X - Ottimizzato per la memoria*

DPU: 8 M-DPU (32 v, 256 GB di memoria) CPUs
Caso d'uso: carichi di lavoro molto grandi che richiedono molta memoria con errori frequenti o requisiti di rapporto elevato out-of-memory memory-to-CPU

*È possibile riscontrare una maggiore latenza di avvio con questi worker. Per risolvere il problema, provare a eseguire queste operazioni:

Attendere alcuni minuti, quindi inviare di nuovo il processo.
Inviare un nuovo processo con un numero ridotto di worker.
Inviare un nuovo processo utilizzando un tipo o una dimensione di worker diversi.

Tabella delle specifiche del tipo di worker

Specifiche del tipo di worker
Tipo di worker	DPU per nodo	VPCU	Memoria (GB)	Disco (GB)	Spazio libero su disco approssimativo (GB)	Esecutori Spark per nodo
G.1X	1	4	16	94	44	1
G.2X	2	8	32	138	78	1
G.4X	4	16	64	256	230	1
G.8X	8	32	128	512	485	1
G.12X	12	48	192	768	741	1
G.16X	16	64	256	1.024	996	1
R.1 X	1	4	32	94	44	1
R.2X	2	8	64	138	78	1
R. 4X	4	16	128	256	230	1
R.8X	8	32	256	512	485	1

Nota: i tipi di worker R hanno configurazioni ottimizzate per la memoria con specifiche ottimizzate per carichi di lavoro che richiedono molta memoria.

Considerazioni importanti

Latenza di avvio

Importante

I tipi di worker G.12X e G.16X, così come tutti i tipi di worker R (da R.1X a R.8X), possono riscontrare una latenza di avvio più elevata. Per risolvere il problema, provare a eseguire queste operazioni:

Attendere alcuni minuti, quindi inviare di nuovo il processo.
Inviare un nuovo processo con un numero ridotto di worker.
Inviare un nuovo processo utilizzando un tipo e una dimensione di worker diversi.

Scegliere il tipo di worker giusto

Per carichi di lavoro ETL standard

G.1X o G.2X: la soluzione più conveniente per le trasformazioni, i join e le query tipiche dei dati
G.4X o G.8X: per carichi di lavoro più impegnativi con set di dati più grandi

Per carichi di lavoro su larga scala

G.12X: set di dati molto grandi che richiedono risorse di elaborazione significative
G.16X: capacità di elaborazione massima per i carichi di lavoro più impegnativi

Per carichi di lavoro a uso intensivo di memoria

R.1X o R.2X: processi di piccole e medie dimensioni con uso intensivo di memoria
R.4X o R.8X: carichi di lavoro di grandi dimensioni a uso intensivo di memoria con frequenti errori OOM

Considerazioni per l'ottimizzazione dei costi

Worker G standard: offrono il giusto rapporto tra risorse di calcolo, memoria e rete e possono essere utilizzati per una varietà di carichi di lavoro diversi a costi inferiori
Worker R: specializzati per attività a uso intensivo di memoria con prestazioni elevate per carichi di lavoro che elaborano set di dati di grandi dimensioni in memoria

Best practice

Linee guida per la selezione dei worker

Avvio con worker standard (G.1X, G.2X) per la maggior parte dei carichi di lavoro
Usa R worker in caso di out-of-memory errori o carichi di lavoro frequenti con operazioni che richiedono molta memoria come caching, shuffling e aggregazione
Considerare G.12X/G.16X per carichi di lavoro ad alta intensità di calcolo che richiedono il massimo delle risorse
Considerare i vincoli di capacità per l'utilizzo di nuovi tipi di worker in flussi di lavoro urgenti

Ottimizzazione delle prestazioni

CloudWatch Monitora le metriche per comprendere l'utilizzo delle risorse
Utilizzare il numero di worker appropriato in base alla dimensione e alla complessità dei dati
Considerare le strategie di partizionamento dei dati per ottimizzare l'efficienza dei worker

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Utilizzo di viste materializzate

Aggiunta di processi di streaming ETL