Descripción general Tipos de trabajadores disponibles Tabla de especificaciones del tipo de trabajador Consideraciones importantes Elección del tipo de trabajador correcto Consideraciones sobre optimización de costos Prácticas recomendadas

Tipos de trabajadores de AWS Glue

Descripción general

AWS Glue proporciona varios tipos de trabajadores para adaptarse a diferentes requisitos de carga de trabajo, desde pequeños trabajos de transmisión hasta tareas de procesamiento de datos a gran escala que consumen mucha memoria. En esta sección se proporciona información completa sobre todos los tipos de trabajadores disponibles, sus especificaciones y recomendaciones de uso.

Categorías de tipos de trabajadores

AWS Glue ofrece dos categorías principales de tipos de trabajadores:

Tipos de trabajadores G: trabajador informáticos de uso general optimizados para cargas de trabajo de ETL estándar
Tipos de trabajadores R: trabajadores con memoria optimizada diseñados para aplicaciones Spark con un gran consumo de memoria

Unidades de procesamiento de datos (DPU)

Los recursos disponibles para los trabajadores de AWS Glue se miden en DPU. Una DPU es una medida relativa de la potencia de procesamiento que consta de 4 vCPU de capacidad de cómputo y 16 GB de memoria.

DPU optimizadas para memoria (M-DPU): los trabajador de tipo R utilizan M-DPU, que proporcionan el doble de asignación de memoria para un tamaño determinado en comparación con las DPU estándar. Esto significa que, si bien una DPU estándar proporciona 16 GB de memoria, una M-DPU en trabajador de tipo R proporciona 32 GB de memoria optimizada para aplicaciones Spark con un gran consumo de memoria.

Tipos de trabajadores disponibles

G.1 X

DPU: 1 DPU (4 vCPU, 16 GB de memoria)
Almacenamiento: disco de 94 GB (aproximadamente 44 GB libres)
Caso de uso: consultas, uniones y transformaciones de datos; escalables y rentables para la mayoría de los trabajos

G.2 X

DPU: 2 DPU (8 vCPU, 32 GB de memoria)
Almacenamiento: disco de 138 GB (aproximadamente 78 GB libres)
Caso de uso: consultas, uniones y transformaciones de datos; escalables y rentables para la mayoría de los trabajos

G.4X

DPU: 4 DPU (16 vCPU, 64 GB de memoria)
Almacenamiento: disco de 256 GB (aproximadamente 230 GB libres)
Caso de uso: transformaciones, agregaciones, uniones y consultas exigentes

G.8X

DPU: 8 DPU (32 vCPU, 128 GB de memoria)
Almacenamiento: disco de 512 GB (aproximadamente 485 GB libres)
Caso de uso: transformaciones, agregaciones, uniones y consultas exigentes

G.12X

DPU: 12 DPU (48 vCPU, 192 GB de memoria)
Almacenamiento: disco de 768 GB (aproximadamente 741 GB libres)
Caso de uso: cargas de trabajo muy grandes que consumen muchos recursos y requieren una capacidad informática significativa

G.16X

DPU: 16 DPU (64 vCPU, 256 GB de memoria)
Almacenamiento: disco de 1024 GB (aproximadamente 996 GB libres)
Caso de uso: las cargas de trabajo más grandes que consumen la mayor cantidad de recursos y requieren la capacidad informática máxima

R.1X: optimizado para la memoria*

DPU: 1 M-DPU (4 vCPU, 32 GB de memoria)
Caso de uso: cargas de trabajo con una gran consumo de memoria y con errores frecuentes de falta de memoria o que requieren una alta relación entre memoria y CPU

R.2X: optimizado para la memoria*

DPU: 2 M-DPU (8 vCPU, 64 GB de memoria)
Caso de uso: cargas de trabajo con una gran consumo de memoria y con errores frecuentes de falta de memoria o que requieren una alta relación entre memoria y CPU

R.4X: optimizado para la memoria*

DPU: 4 M-DPU (16 vCPU, 128 GB de memoria)
Caso de uso: cargas de trabajo grandes con un gran consumo de memoria y con errores frecuentes de falta de memoria o que requieren una alta relación entre memoria y CPU

R.8X: optimizado para la memoria*

DPU: 8 M-DPU (32 vCPU, 256 GB de memoria)
Caso de uso: cargas de trabajo muy grandes con una gran consumo de memoria y con errores frecuentes de falta de memoria o que requieren una alta relación entre memoria y CPU

* Puede tener una mayor latencia de inicio con estos trabajadores. Para resolver este problema, pruebe lo siguiente:

Espere unos minutos y después envíe el trabajo de nuevo.
Envíe un nuevo trabajo con menos trabajadores.
Envíe un nuevo trabajo con un tipo o tamaño de trabajador diferente.

Tabla de especificaciones del tipo de trabajador

Especificaciones del tipo de trabajador
Tipo de trabajador	DPU por nodo	vCPU	Memoria (GB)	Disco (GB)	Espacio libre en el disco aproximado (GB)	Ejecutores de Spark por nodo
G.1 X	1	4	16	94	44	1
G.2 X	2	8	32	138	78	1
G.4X	4	16	64	256	230	1
G.8X	8	32	128	512	485	1
G.12X	12	48	192	768	741	1
G.16X	16	64	256	1024	996	1
R.1X	1	4	32	94	44	1
R.2X	2	8	64	138	78	1
R.4X	4	16	128	256	230	1
R.8X	8	32	256	512	485	1

Nota: Los tipos de trabajadores R tienen configuraciones optimizadas para cargas de trabajo que consumen mucha memoria.

Consideraciones importantes

Latencia de inicio

importante

Los tipos de trabajadores G.12X y G.16X, así como todos los tipos de trabajadores R (de R.1X a R.8X), pueden tener una latencia de inicio más alta. Para resolver este problema, pruebe lo siguiente:

Espere unos minutos y después envíe el trabajo de nuevo.
Envíe un nuevo trabajo con menos trabajadores.
Envíe un nuevo trabajo con un tipo y tamaño de trabajador diferente.

Elección del tipo de trabajador correcto

Para cargas de trabajo de ETL estándar

G.1X o G.2X: los más rentables para las típicas uniones, consultas y transformaciones de datos
G.4X o G.8X: para cargas de trabajo más exigentes con conjuntos de datos más grandes

Para cargas de trabajo a gran escala

G.12X: para conjuntos de datos muy grandes que requieren recursos informáticos considerables
G.16X: la capacidad informática máxima para las cargas de trabajo más exigentes

Para cargas de trabajo con un gran consumo de memoria

R.1X o R.2X: trabajos con un gran consumo de memoria de tamaño pequeño a mediano
R.4X o R.8X: grandes cargas de trabajo con un gran consumo de memoria y frecuentes errores de falta de memoria

Consideraciones sobre optimización de costos

Trabajadores estándar G: proporcionan un equilibrio entre los recursos informáticos, de memoria y de red, y se pueden usar para una variedad de cargas de trabajo diversas a un costo menor.
Trabajadores R: están especializados para tareas con un gran consumo de memoria con un rendimiento rápido para cargas de trabajo que procesan grandes conjuntos de datos en la memoria.

Prácticas recomendadas

Directrices de selección de trabajadores

Comience con los trabajadores estándar (G.1X, G.2X) para la mayoría de las cargas de trabajo.
Use trabajadores R cuando reciba errores de falta de memoria frecuentes o tenga cargas de trabajo con operaciones que consumen mucha memoria, como el almacenamiento en caché, la mezcla de datos y las agregaciones.
Considere usar G.12X/G.16X para cargas de trabajo con requisitos informáticos altos que requieren el máximo de recursos.
Tenga en cuenta las limitaciones de capacidad al usar nuevos tipos de trabajadores en flujos de trabajo con restricciones de tiempo.

Optimización del rendimiento

Supervise las métricas de CloudWatch para comprender la utilización de los recursos.
Use los recuentos de trabajadores adecuados en función del tamaño y la complejidad de los datos.
Considere usar estrategias de partición de datos para optimizar la eficiencia de los trabajadores.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Uso de vistas materializadas

Trabajos ETL de streaming