AWS Glue types de travailleurs - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS Glue types de travailleurs

Présentation

AWS Glue propose plusieurs types de travailleurs pour répondre aux différentes exigences de charge de travail, qu'il s'agisse de petites tâches de streaming ou de tâches de traitement de données à grande échelle nécessitant beaucoup de mémoire. Cette section fournit des informations complètes sur tous les types de travailleurs disponibles, leurs spécifications et les recommandations d'utilisation.

Catégories de types de travailleurs

AWS Glue propose deux catégories principales de types de travailleurs :

  • Types de travailleurs G : ordinateurs polyvalents optimisés pour les charges de travail ETL standard

  • Types de processeurs R : outils de travail optimisés pour la mémoire conçus pour les applications Spark gourmandes en mémoire

Unités de traitement de données (DPUs)

Les ressources disponibles pour les AWS Glue travailleurs sont mesurées en DPUs. Un DPU est une mesure relative de la puissance de traitement composée de 4 V de capacité CPUs de calcul et de 16 Go de mémoire.

Optimisé pour la mémoire DPUs (M-DPUs) : les travailleurs de type R utilisent M-DPUs, qui fournit le double de l'allocation de mémoire pour une taille donnée par rapport à la norme. DPUs Cela signifie qu'alors qu'un DPU standard fournit 16 Go de mémoire, un M-DPU en R fournit 32 Go de mémoire optimisés pour les applications Spark gourmandes en mémoire.

Types de travailleurs disponibles

G-1X - Travailleur standard

  • DPU : 1 DPU (4 VCPUs, 16 Go de mémoire)

  • Stockage : disque de 94 Go (environ 44 Go gratuits)

  • Cas d'utilisation : transformations, jointures et requêtes de données : évolutifs et économiques pour la plupart des tâches

G.2X - Travailleur standard

  • DPU : 2 DPU (8 VCPUs, 32 Go de mémoire)

  • Stockage : disque de 138 Go (environ 78 Go gratuits)

  • Cas d'utilisation : transformations, jointures et requêtes de données : évolutifs et économiques pour la plupart des tâches

G.4X - Travailleur de grande taille

  • Processeur : 4 processeurs (16 VCPUs, 64 Go de mémoire)

  • Stockage : disque de 256 Go (environ 230 Go gratuits)

  • Cas d'utilisation : transformations, agrégations, jointures et requêtes exigeantes

G.8X - Travailleur de très grande taille

  • DPU : 8 DPU (32 VCPUs, 128 Go de mémoire)

  • Stockage : disque de 512 Go (environ 485 Go gratuits)

  • Cas d'utilisation : transformations, agrégations, jointures et requêtes les plus exigeantes

G.12X - Très gros travailleur*

  • DPU : 12 DPU (48 VCPUs, 192 Go de mémoire)

  • Stockage : disque de 768 Go (environ 741 Go gratuits)

  • Cas d'utilisation : charges de travail très volumineuses et gourmandes en ressources nécessitant une capacité de calcul importante

G.16X - Nombre maximal de travailleurs*

  • DPU : 16 DPU (64 VCPUs, 256 Go de mémoire)

  • Stockage : disque de 1024 Go (environ 996 Go gratuits)

  • Cas d'utilisation : charges de travail les plus importantes et les plus gourmandes en ressources nécessitant une capacité de calcul maximale

R.1X - Petite taille optimisée pour la mémoire*

  • DPU : 1 M-DPU (4 VCPUs, 32 Go de mémoire)

  • Cas d'utilisation : charges de travail gourmandes en mémoire associées à des out-of-memory erreurs fréquentes ou à des exigences de ratio élevées memory-to-CPU

R.2X - Support optimisé pour la mémoire*

  • DPU : 2 M-DPU (8 VCPUs, 64 Go de mémoire)

  • Cas d'utilisation : charges de travail gourmandes en mémoire associées à des out-of-memory erreurs fréquentes ou à des exigences de ratio élevées memory-to-CPU

R.4X - Grande capacité optimisée pour la mémoire*

  • DPU : 4 M-DPU (16 VCPUs, 128 Go de mémoire)

  • Cas d'utilisation : grandes charges de travail gourmandes en mémoire avec des out-of-memory erreurs fréquentes ou des exigences de ratio élevées memory-to-CPU

R.8X - Taille extra large optimisée pour la mémoire*

  • DPU : 8 M-DPU (32 VCPUs, 256 Go de mémoire)

  • Cas d'utilisation : très grandes charges de travail gourmandes en mémoire avec des out-of-memory erreurs fréquentes ou des exigences de ratio élevées memory-to-CPU

* Vous pouvez rencontrer une latence de démarrage plus élevée avec ces travailleurs. Pour résoudre ce problème, essayez ce qui suit :

  • Patientez quelques minutes, puis soumettez à nouveau votre travail.

  • Soumettez une nouvelle offre d'emploi avec un nombre réduit de travailleurs.

  • Soumettez un nouveau travail en utilisant un type ou une taille de travailleur différent.

Tableau des spécifications des types de travailleurs

Spécifications du type de travailleur
Type de travailleur DPU par nœud vCPU Mémoire (Go) Disque (Go) Espace disque disponible (Go) Exécuteurs Spark par nœud
G.1X 1 4 16 94 44 1
G.2X 2 8 32 138 78 1
G.4X 4 16 64 256 230 1
G.8X 8 32 128 512 485 1
G.12X 12 48 192 768 741 1
G.16 X 16 64 256 1024 996 1

Remarque : Les types de travailleurs R ont des configurations optimisées pour la mémoire avec des spécifications optimisées pour les charges de travail gourmandes en mémoire.

Considérations Importantes

Latence de démarrage

Important

Les types de travailleurs G.12X et G.16X, ainsi que tous les types de travailleurs R (R.1X à R.8X), peuvent rencontrer une latence de démarrage plus élevée. Pour résoudre ce problème, essayez ce qui suit :

  • Patientez quelques minutes, puis soumettez à nouveau votre travail.

  • Soumettez une nouvelle offre d'emploi avec un nombre réduit de travailleurs.

  • Soumettez un nouveau travail en utilisant un type et une taille de travailleur différents.

Choisir le bon type de travailleur

Pour les charges de travail ETL standard

  • G.1X ou G.2X : solution la plus rentable pour les transformations de données, les jointures et les requêtes classiques

  • G.4X ou G.8X : pour les charges de travail plus exigeantes avec des ensembles de données plus volumineux

Pour les charges de travail à grande échelle

  • G.12X : Très grands ensembles de données nécessitant d'importantes ressources de calcul

  • G.16X : capacité de calcul maximale pour les charges de travail les plus exigeantes

Pour les charges de travail gourmandes en mémoire

  • R.1X ou R.2X : tâches gourmandes en mémoire de petite ou moyenne taille

  • R.4X ou R.8X : charges de travail gourmandes en mémoire et fréquentes erreurs OOM

Considérations concernant l'optimisation des coûts

  • Travailleurs standard G : fournissent un équilibre entre les ressources de calcul, de mémoire et de réseau, et peuvent être utilisés pour diverses charges de travail à moindre coût

  • R workers : Spécialisés pour les tâches gourmandes en mémoire avec des performances rapides pour les charges de travail traitant de grands ensembles de données en mémoire

Bonnes pratiques

Directives de sélection des travailleurs

  1. Commencez par des travailleurs standard (G1X, G.2X) pour la plupart des charges de travail

  2. Utilisez R Workers en cas d' out-of-memoryerreurs ou de charges de travail fréquentes liées à des opérations gourmandes en mémoire telles que la mise en cache, le remaniement et l'agrégation

  3. Optez pour le G.12X/G.16X pour les charges de travail gourmandes en ressources informatiques nécessitant un maximum de ressources

  4. Tenez compte des contraintes de capacité lors de l'utilisation de nouveaux types de travailleurs dans des flux de travail urgents

Optimisation des performances

  • Surveillez CloudWatch les indicateurs pour comprendre l'utilisation des ressources

  • Utiliser un nombre de travailleurs approprié en fonction de la taille et de la complexité des données

  • Envisagez des stratégies de partitionnement des données pour optimiser l'efficacité des employés