Visão geral Tipos de operadores disponíveis Tabela de especificações dos tipos de operadores Considerações importantes Como escolher o tipo de operador certo Considerações sobre otimização de custos Práticas recomendadas

Tipos de operadores do AWS Glue

Visão geral

O AWS Glue oferece vários tipos de operadores para acomodar diferentes requisitos de workloads, desde pequenos trabalhos de streaming até tarefas de processamento de dados em grande escala que consomem muita memória. Esta seção fornece informações abrangentes sobre todos os tipos de operadores disponíveis, suas especificações e recomendações de uso.

Categorias de tipos de operadores

O AWS Glue oferece duas categorias principais de tipos de operadores:

Tipos de operadores G: operadores de computação de uso geral otimizados para workloads ETL padrão
Tipos de operadores R: operadores otimizados para memória desenvolvidos para aplicações Spark que consomem muita memória

Unidades de processamento de dados (DPUs)

Os recursos disponíveis nos operadores do AWS Glue são medidos em DPUs. Uma DPU é uma medida relativa do poder de processamento que consiste em uma capacidade computacional de 4 vCPUs e 16 GB de memória.

DPUs otimizadas para memória (M-DPUs): os operadores do tipo R usam M-DPUs, que fornecem o dobro da alocação de memória para um determinado tamanho em comparação às DPUs padrão. Isso significa que, enquanto uma DPU padrão fornece 16 GB de memória, uma M-DPU em operadores do tipo R fornece 32 GB de memória otimizada para aplicações Spark que consomem muita memória.

Tipos de operadores disponíveis

G.1X

DPU: 1 DPU (4 vCPUs, 16 GB de memória)
Armazenamento: disco de 94 GB (aproximadamente 44 GB livres)
Caso de uso: transformações, uniões e consultas de dados de forma escalável e econômica para a maioria dos trabalhos

G.2X

DPU: 2 DPUs (8 vCPUs, 32 GB de memória)
Armazenamento: disco de 138 GB (aproximadamente 78 GB livres)
Caso de uso: transformações, uniões e consultas de dados de forma escalável e econômica para a maioria dos trabalhos

G.4X

DPU: 4 DPUs (16 vCPUs, 64 GB de memória)
Armazenamento: disco de 256 GB (aproximadamente 230 GB livres)
Caso de uso: transformações, agregações, uniões e consultas exigentes

G.8X

DPU: 8 DPUs (32 vCPUs, 128 GB de memória)
Armazenamento: disco de 512 GB (aproximadamente 485 GB livres)
Caso de uso: transformações, agregações, uniões e consultas exigentes

G.12X

DPU: 12 DPUs (48 vCPUs, 192 GB de memória)
Armazenamento: disco de 768 GB (aproximadamente 741 GB livres)
Caso de uso: workloads muito grandes e com uso intenso de recursos que exigem capacidade computacional significativa

G.16X

DPU: 16 DPUs (64 vCPUs, 256 GB de memória)
Armazenamento: disco de 1024 GB (aproximadamente 996 GB livres)
Caso de uso: as workloads maiores com o maior uso de recursos que exigem capacidade computacional máxima

R.1X: otimizado para memória*

DPU: 1 M-DPU (4 vCPUs, 32 GB de memória)
Caso de uso: workloads que consomem muita memória e apresentam erros frequentes de falta de memória ou requisitos elevados de relação memória/CPU

R.2X: otimizado para memória*

DPU: 2 M-DPUs (8 vCPUs, 64 GB de memória)
Caso de uso: workloads que consomem muita memória e apresentam erros frequentes de falta de memória ou requisitos elevados de relação memória/CPU

R.4X: otimizado para memória*

DPU: 4 M-DPUs (16 vCPUs, 128 GB de memória)
Caso de uso: workloads grandes que consomem muita memória e apresentam erros frequentes de falta de memória ou requisitos elevados de relação memória/CPU

R.8X: otimizado para memória*

DPU: 8 M-DPUs (32 vCPUs, 256 GB de memória)
Caso de uso: workloads muito grandes que consomem muita memória e apresentam erros frequentes de falta de memória ou requisitos elevados de relação memória/CPU

* É possível que uma maior latência de inicialização seja observada com esses operadores. Para resolver esse problema, experimente o seguinte:

Espere alguns minutos e envie o trabalho novamente.
Envie um novo trabalho com um número reduzido de operadores.
Envie um novo trabalho usando um tipo ou tamanho de operador diferente.

Tabela de especificações dos tipos de operadores

Especificações dos tipos de operadores
Tipo de operador	DPUs por nó	vCPU	Memória (GB)	Disco (GB)	Espaço livre em disco aproximado (GB)	Executores Spark por nó
G.1X	1	4	16	94	44	1
G.2X	2	8	32	138	78	1
G.4X	4	16	64	256	230	1
G.8X	8	32	128	512	485	1
G.12X	12	48	192	768	741	1
G.16X	16	64	256	1024	996	1
R.1X	1	4	32	94	44	1
R.2X	2	8	64	138	78	1
R.4X	4	16	128	256	230	1
R.8X	8	32	256	512	485	1

Observação: os tipos de operadores R têm configurações otimizadas para memória com especificações otimizadas para workloads com consumo elevado de memória.

Considerações importantes

Latência de inicialização

Importante

Os tipos de operadores G.12X e G.16X, bem como todos os tipos de trabalhadores R (R.1X a R.8X), podem encontrar uma maior latência durante a inicialização. Para resolver esse problema, experimente o seguinte:

Espere alguns minutos e envie o trabalho novamente.
Envie um novo trabalho com um número reduzido de operadores.
Envie um novo trabalho usando um tipo e um tamanho de operador diferentes.

Como escolher o tipo de operador certo

Para workloads ETL padrão

G.1X ou G.2X: o mais econômico para transformações, uniões e consultas de dados típicas
G.4X ou G.8X: para workloads mais exigentes com conjuntos de dados maiores

Para workloads em grande escala

G.12X: conjuntos de dados muito grandes que exigem recursos computacionais significativos
G.16X: capacidade máxima de computação para as workloads mais exigentes

Para workloads com consumo elevado de memória

R.1X ou R.2X: trabalhos de pequeno a médio porte que consomem muita memória
R.4X ou R.8X: workloads que consomem muita memória e apresentam erros frequentes de OOM

Considerações sobre otimização de custos

Operadores G padrão: fornecem um equilíbrio entre recursos de computação, memória e rede e podem ser usados em workloads diversas a um custo menor
Operadores R: especializados em tarefas que consomem muita memória e com desempenho rápido em workloads que processam grandes conjuntos de dados na memória

Práticas recomendadas

Diretrizes de seleção de operadores

Comece com operadores padrão (G.1X, G.2X) para a maioria das workloads
Use operadores R ao enfrentar erros frequentes de falta de memória ou workloads com operações que consomem muita memória, como armazenamento em cache, embaralhamento e agregação
Considere G.12X/G.16X para workloads com computação intensa que exigem o máximo de recursos
Considere as restrições de capacidade ao usar novos tipos de operadores em fluxos de trabalho sensíveis ao tempo

Otimização de desempenho

Monitore as métricas do CloudWatch para entender a utilização de recursos
Use contagens de operadores apropriadas com base no tamanho e na complexidade dos dados
Considere estratégias de particionamento de dados para otimizar a eficiência dos operadores

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Uso da visão materializada

Trabalhos de transmissão de ETL