Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
AWS Glue types de travailleurs
Présentation
AWS Glue propose plusieurs types de travailleurs pour répondre aux différentes exigences de charge de travail, qu'il s'agisse de petites tâches de streaming ou de tâches de traitement de données à grande échelle nécessitant beaucoup de mémoire. Cette section fournit des informations complètes sur tous les types de travailleurs disponibles, leurs spécifications et les recommandations d'utilisation.
Catégories de types de travailleurs
AWS Glue propose deux catégories principales de types de travailleurs :
-
Types de travailleurs G : ordinateurs polyvalents optimisés pour les charges de travail ETL standard
-
Types de processeurs R : outils de travail optimisés pour la mémoire conçus pour les applications Spark gourmandes en mémoire
Unités de traitement de données (DPUs)
Les ressources disponibles pour les AWS Glue travailleurs sont mesurées en DPUs. Un DPU est une mesure relative de la puissance de traitement composée de 4 V de capacité CPUs de calcul et de 16 Go de mémoire.
Optimisé pour la mémoire DPUs (M-DPUs) : les travailleurs de type R utilisent M-DPUs, qui fournit le double de l'allocation de mémoire pour une taille donnée par rapport à la norme. DPUs Cela signifie qu'alors qu'un DPU standard fournit 16 Go de mémoire, un M-DPU en R fournit 32 Go de mémoire optimisés pour les applications Spark gourmandes en mémoire.
Types de travailleurs disponibles
G-1X - Travailleur standard
DPU : 1 DPU (4 VCPUs, 16 Go de mémoire)
Stockage : disque de 94 Go (environ 44 Go gratuits)
Cas d'utilisation : transformations, jointures et requêtes de données : évolutifs et économiques pour la plupart des tâches
G.2X - Travailleur standard
DPU : 2 DPU (8 VCPUs, 32 Go de mémoire)
Stockage : disque de 138 Go (environ 78 Go gratuits)
Cas d'utilisation : transformations, jointures et requêtes de données : évolutifs et économiques pour la plupart des tâches
G.4X - Travailleur de grande taille
Processeur : 4 processeurs (16 VCPUs, 64 Go de mémoire)
Stockage : disque de 256 Go (environ 230 Go gratuits)
Cas d'utilisation : transformations, agrégations, jointures et requêtes exigeantes
G.8X - Travailleur de très grande taille
DPU : 8 DPU (32 VCPUs, 128 Go de mémoire)
Stockage : disque de 512 Go (environ 485 Go gratuits)
Cas d'utilisation : transformations, agrégations, jointures et requêtes les plus exigeantes
G.12X - Très gros travailleur*
DPU : 12 DPU (48 VCPUs, 192 Go de mémoire)
Stockage : disque de 768 Go (environ 741 Go gratuits)
Cas d'utilisation : charges de travail très volumineuses et gourmandes en ressources nécessitant une capacité de calcul importante
G.16X - Nombre maximal de travailleurs*
DPU : 16 DPU (64 VCPUs, 256 Go de mémoire)
Stockage : disque de 1024 Go (environ 996 Go gratuits)
Cas d'utilisation : charges de travail les plus importantes et les plus gourmandes en ressources nécessitant une capacité de calcul maximale
R.1X - Petite taille optimisée pour la mémoire*
DPU : 1 M-DPU (4 VCPUs, 32 Go de mémoire)
Cas d'utilisation : charges de travail gourmandes en mémoire associées à des out-of-memory erreurs fréquentes ou à des exigences de ratio élevées memory-to-CPU
R.2X - Support optimisé pour la mémoire*
DPU : 2 M-DPU (8 VCPUs, 64 Go de mémoire)
Cas d'utilisation : charges de travail gourmandes en mémoire associées à des out-of-memory erreurs fréquentes ou à des exigences de ratio élevées memory-to-CPU
R.4X - Grande capacité optimisée pour la mémoire*
DPU : 4 M-DPU (16 VCPUs, 128 Go de mémoire)
Cas d'utilisation : grandes charges de travail gourmandes en mémoire avec des out-of-memory erreurs fréquentes ou des exigences de ratio élevées memory-to-CPU
R.8X - Taille extra large optimisée pour la mémoire*
DPU : 8 M-DPU (32 VCPUs, 256 Go de mémoire)
Cas d'utilisation : très grandes charges de travail gourmandes en mémoire avec des out-of-memory erreurs fréquentes ou des exigences de ratio élevées memory-to-CPU
* Vous pouvez rencontrer une latence de démarrage plus élevée avec ces travailleurs. Pour résoudre ce problème, essayez ce qui suit :
Patientez quelques minutes, puis soumettez à nouveau votre travail.
Soumettez une nouvelle offre d'emploi avec un nombre réduit de travailleurs.
Soumettez un nouveau travail en utilisant un type ou une taille de travailleur différent.
Tableau des spécifications des types de travailleurs
Type de travailleur | DPU par nœud | vCPU | Mémoire (Go) | Disque (Go) | Espace disque disponible (Go) | Exécuteurs Spark par nœud |
---|---|---|---|---|---|---|
G.1X | 1 | 4 | 16 | 94 | 44 | 1 |
G.2X | 2 | 8 | 32 | 138 | 78 | 1 |
G.4X | 4 | 16 | 64 | 256 | 230 | 1 |
G.8X | 8 | 32 | 128 | 512 | 485 | 1 |
G.12X | 12 | 48 | 192 | 768 | 741 | 1 |
G.16 X | 16 | 64 | 256 | 1024 | 996 | 1 |
Remarque : Les types de travailleurs R ont des configurations optimisées pour la mémoire avec des spécifications optimisées pour les charges de travail gourmandes en mémoire.
Considérations Importantes
Latence de démarrage
Important
Les types de travailleurs G.12X et G.16X, ainsi que tous les types de travailleurs R (R.1X à R.8X), peuvent rencontrer une latence de démarrage plus élevée. Pour résoudre ce problème, essayez ce qui suit :
Patientez quelques minutes, puis soumettez à nouveau votre travail.
Soumettez une nouvelle offre d'emploi avec un nombre réduit de travailleurs.
Soumettez un nouveau travail en utilisant un type et une taille de travailleur différents.
Choisir le bon type de travailleur
Pour les charges de travail ETL standard
G.1X ou G.2X : solution la plus rentable pour les transformations de données, les jointures et les requêtes classiques
G.4X ou G.8X : pour les charges de travail plus exigeantes avec des ensembles de données plus volumineux
Pour les charges de travail à grande échelle
G.12X : Très grands ensembles de données nécessitant d'importantes ressources de calcul
G.16X : capacité de calcul maximale pour les charges de travail les plus exigeantes
Pour les charges de travail gourmandes en mémoire
R.1X ou R.2X : tâches gourmandes en mémoire de petite ou moyenne taille
R.4X ou R.8X : charges de travail gourmandes en mémoire et fréquentes erreurs OOM
Considérations concernant l'optimisation des coûts
Travailleurs standard G : fournissent un équilibre entre les ressources de calcul, de mémoire et de réseau, et peuvent être utilisés pour diverses charges de travail à moindre coût
R workers : Spécialisés pour les tâches gourmandes en mémoire avec des performances rapides pour les charges de travail traitant de grands ensembles de données en mémoire
Bonnes pratiques
Directives de sélection des travailleurs
Commencez par des travailleurs standard (G1X, G.2X) pour la plupart des charges de travail
Utilisez R Workers en cas d' out-of-memoryerreurs ou de charges de travail fréquentes liées à des opérations gourmandes en mémoire telles que la mise en cache, le remaniement et l'agrégation
Optez pour le G.12X/G.16X pour les charges de travail gourmandes en ressources informatiques nécessitant un maximum de ressources
Tenez compte des contraintes de capacité lors de l'utilisation de nouveaux types de travailleurs dans des flux de travail urgents
Optimisation des performances
Surveillez CloudWatch les indicateurs pour comprendre l'utilisation des ressources
Utiliser un nombre de travailleurs approprié en fonction de la taille et de la complexité des données
Envisagez des stratégies de partitionnement des données pour optimiser l'efficacité des employés