Tipos de trabajadores de AWS Glue
Descripción general
AWS Glue proporciona varios tipos de trabajadores para adaptarse a diferentes requisitos de carga de trabajo, desde pequeños trabajos de transmisión hasta tareas de procesamiento de datos a gran escala que consumen mucha memoria. En esta sección se proporciona información completa sobre todos los tipos de trabajadores disponibles, sus especificaciones y recomendaciones de uso.
Categorías de tipos de trabajadores
AWS Glue ofrece dos categorías principales de tipos de trabajadores:
-
Tipos de trabajadores G: trabajador informáticos de uso general optimizados para cargas de trabajo de ETL estándar
-
Tipos de trabajadores R: trabajadores con memoria optimizada diseñados para aplicaciones Spark con un gran consumo de memoria
Unidades de procesamiento de datos (DPU)
Los recursos disponibles para los trabajadores de AWS Glue se miden en DPU. Una DPU es una medida relativa de la potencia de procesamiento que consta de 4 vCPU de capacidad de cómputo y 16 GB de memoria.
DPU optimizadas para memoria (M-DPU): los trabajador de tipo R utilizan M-DPU, que proporcionan el doble de asignación de memoria para un tamaño determinado en comparación con las DPU estándar. Esto significa que, si bien una DPU estándar proporciona 16 GB de memoria, una M-DPU en trabajador de tipo R proporciona 32 GB de memoria optimizada para aplicaciones Spark con un gran consumo de memoria.
Tipos de trabajadores disponibles
G.1X: trabajador estándar
DPU: 1 DPU (4 vCPU, 16 GB de memoria)
Almacenamiento: disco de 94 GB (aproximadamente 44 GB libres)
Caso de uso: consultas, uniones y transformaciones de datos; escalables y rentables para la mayoría de los trabajos
G.2X: trabajador estándar
DPU: 2 DPU (8 vCPU, 32 GB de memoria)
Almacenamiento: disco de 138 GB (aproximadamente 78 GB libres)
Caso de uso: consultas, uniones y transformaciones de datos; escalables y rentables para la mayoría de los trabajos
G.4X: trabajador grande
DPU: 4 DPU (16 vCPU, 64 GB de memoria)
Almacenamiento: disco de 256 GB (aproximadamente 230 GB libres)
Caso de uso: transformaciones, agregaciones, uniones y consultas exigentes
G.8X: trabajador extragrande
DPU: 8 DPU (32 vCPU, 128 GB de memoria)
Almacenamiento: disco de 512 GB (aproximadamente 485 GB libres)
Caso de uso: las transformaciones, agregaciones, uniones y consultas más exigentes
G.12X: trabajador muy grande*
DPU: 12 DPU (48 vCPU, 192 GB de memoria)
Almacenamiento: disco de 768 GB (aproximadamente 741 GB libres)
Caso de uso: cargas de trabajo muy grandes que consumen muchos recursos y requieren una capacidad informática significativa
G.16X: trabajador máximo*
DPU: 16 DPU (64 vCPU, 256 GB de memoria)
Almacenamiento: disco de 1024 GB (aproximadamente 996 GB libres)
Caso de uso: las cargas de trabajo más grandes que consumen la mayor cantidad de recursos y requieren la capacidad informática máxima
R.1X: trabajador pequeño optimizado para la memoria*
DPU: 1 M-DPU (4 vCPU, 32 GB de memoria)
Caso de uso: cargas de trabajo con una gran consumo de memoria y con errores frecuentes de falta de memoria o que requieren una alta relación entre memoria y CPU
R.2X: trabajador mediano optimizado para la memoria*
DPU: 2 M-DPU (8 vCPU, 64 GB de memoria)
Caso de uso: cargas de trabajo con una gran consumo de memoria y con errores frecuentes de falta de memoria o que requieren una alta relación entre memoria y CPU
R.4X: trabajador grande optimizado para la memoria*
DPU: 4 M-DPU (16 vCPU, 128 GB de memoria)
Caso de uso: cargas de trabajo grandes con un gran consumo de memoria y con errores frecuentes de falta de memoria o que requieren una alta relación entre memoria y CPU
R.8X: trabajador extragrande optimizado para la memoria*
DPU: 8 M-DPU (32 vCPU, 256 GB de memoria)
Caso de uso: cargas de trabajo muy grandes con una gran consumo de memoria y con errores frecuentes de falta de memoria o que requieren una alta relación entre memoria y CPU
* Puede tener una mayor latencia de inicio con estos trabajadores. Para resolver este problema, pruebe lo siguiente:
Espere unos minutos y después envíe el trabajo de nuevo.
Envíe un nuevo trabajo con menos trabajadores.
Envíe un nuevo trabajo con un tipo o tamaño de trabajador diferente.
Tabla de especificaciones del tipo de trabajador
Tipo de trabajador | DPU por nodo | vCPU | Memoria (GB) | Disco (GB) | Espacio libre en el disco (GB) | Ejecutores de Spark por nodo |
---|---|---|---|---|---|---|
G.1X | 1 | 4 | 16 | 94 | 44 | 1 |
G.2X | 2 | 8 | 32 | 138 | 78 | 1 |
G.4X | 4 | 16 | 64 | 256 | 230 | 1 |
G.8X | 8 | 32 | 128 | 512 | 485 | 1 |
G.12X | 12 | 48 | 192 | 768 | 741 | 1 |
G.16X | 16 | 64 | 256 | 1024 | 996 | 1 |
Nota: Los tipos de trabajadores R tienen configuraciones optimizadas para cargas de trabajo que consumen mucha memoria.
Consideraciones importantes
Latencia de inicio
importante
Los tipos de trabajadores G.12X y G.16X, así como todos los tipos de trabajadores R (de R.1X a R.8X), pueden tener una latencia de inicio más alta. Para resolver este problema, pruebe lo siguiente:
Espere unos minutos y después envíe el trabajo de nuevo.
Envíe un nuevo trabajo con menos trabajadores.
Envíe un nuevo trabajo con un tipo y tamaño de trabajador diferente.
Elección del tipo de trabajador correcto
Para cargas de trabajo de ETL estándar
G.1X o G.2X: los más rentables para las típicas uniones, consultas y transformaciones de datos
G.4X o G.8X: para cargas de trabajo más exigentes con conjuntos de datos más grandes
Para cargas de trabajo a gran escala
G.12X: para conjuntos de datos muy grandes que requieren recursos informáticos considerables
G.16X: la capacidad informática máxima para las cargas de trabajo más exigentes
Para cargas de trabajo con un gran consumo de memoria
R.1X o R.2X: trabajos con un gran consumo de memoria de tamaño pequeño a mediano
R.4X o R.8X: grandes cargas de trabajo con un gran consumo de memoria y frecuentes errores de falta de memoria
Consideraciones sobre optimización de costos
Trabajadores estándar G: proporcionan un equilibrio entre los recursos informáticos, de memoria y de red, y se pueden usar para una variedad de cargas de trabajo diversas a un costo menor.
Trabajadores R: están especializados para tareas con un gran consumo de memoria con un rendimiento rápido para cargas de trabajo que procesan grandes conjuntos de datos en la memoria.
Prácticas recomendadas
Directrices de selección de trabajadores
Comience con los trabajadores estándar (G.1X, G.2X) para la mayoría de las cargas de trabajo.
Use trabajadores R cuando reciba errores de falta de memoria frecuentes o tenga cargas de trabajo con operaciones que consumen mucha memoria, como el almacenamiento en caché, la mezcla de datos y las agregaciones.
Considere usar G.12X/G.16X para cargas de trabajo con requisitos informáticos altos que requieren el máximo de recursos.
Tenga en cuenta las limitaciones de capacidad al usar nuevos tipos de trabajadores en flujos de trabajo con restricciones de tiempo.
Optimización del rendimiento
Supervise las métricas de CloudWatch para comprender la utilización de los recursos.
Use los recuentos de trabajadores adecuados en función del tamaño y la complejidad de los datos.
Considere usar estrategias de partición de datos para optimizar la eficiencia de los trabajadores.