Tâches - AWS Glue

Tâches

L'API des tâches décrit les types de données et l'API liés à la création, la mise à jour, la suppression ou l'affichage des tâches dans AWS Glue.

Types de données

Structure Job

Spécifie une définition de la tâche.

Champs
  • Name – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom que vous affectez à la définition de la tâche.

  • JobMode – Chaîne UTF-8 (valeurs valides : SCRIPT="" | VISUAL="" | NOTEBOOK="").

    Mode qui décrit la façon dont une tâche a été créée. Les valeurs valides sont :

    • SCRIPT : la tâche a été créée à l’aide de l’éditeur de script AWS Glue Studio.

    • VISUAL : la tâche a été créée à l’aide de l’éditeur visuel AWS Glue Studio.

    • NOTEBOOK : la tâche a été créée à l’aide d’un bloc-notes de sessions interactives.

    Lorsque le champ JobMode est manquant ou a la valeur null, SCRIPT est attribué comme valeur par défaut.

  • JobRunQueuingEnabled : booléen.

    Indique si la mise en file d’attente des exécutions de tâches est activée pour les exécutions de cette tâche.

    La valeur true signifie que la mise en file d’attente des tâches est activée pour les exécutions de tâches. Si la valeur est false ou si elle n’est pas renseignée, les exécutions de tâches ne seront pas prises en compte pour la mise en file d’attente.

    Si ce champ ne correspond pas à la valeur définie dans l’exécution de la tâche, la valeur du champ d’exécution de la tâche sera utilisée.

  • Description – Chaîne de description, d’une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

    Description de la tâche.

  • LogUri – Chaîne UTF-8.

    Ce champ est réservé pour un usage futur.

  • Role – Chaîne UTF-8.

    Nom ou Amazon Resource Name (ARN) du rôle IAM associé à cette tâche.

  • CreatedOn – Horodatage.

    Date et heure de création de la définition de tâche.

  • LastModifiedOn – Horodatage.

    Dernier moment où la définition de tâche a été modifiée.

  • ExecutionProperty : un objet ExecutionProperty.

    Objet ExecutionProperty spécifiant le nombre maximal d'exécutions simultanées autorisées pour cette tâche.

  • Command – Un objet JobCommand.

    La commande JobCommand qui exécute cette tâche.

  • DefaultArguments – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8.

    Chaque valeur est une chaîne UTF-8.

    Les arguments par défaut pour chaque exécution de cette tâche, spécifiés en tant que paires nom-valeur.

    Ici, vous pouvez spécifier des arguments que votre propre script tâche-exécution consomme, ainsi que des arguments que AWS Glue consomme lui-même.

    Les arguments de la tâche peuvent être consignés. Ne transmettez pas de secrets en texte clair comme arguments. Récupération des secrets à partir d'une connexion AWS Glue,AWS Secrets Manager ou tout autre mécanisme de gestion de secrets si vous avez l'intention de les conserver dans la tâche.

    Pour plus d'informations sur la façon de spécifier et d'utiliser vos propres arguments de Job, consultez la rubrique Appel d'API AWS Glue en Python dans le Guide du développeur.

    Pour plus d'informations sur les arguments que vous pouvez fournir dans ce champ lors de la configuration des tâches Spark, consultez la rubrique Special Parameters Used by AWS Glue dans le guide du développeur.

    Pour plus d'informations sur les arguments que vous pouvez fournir dans ce champ lors de la configuration des tâches Ray, consultez Utilisation des paramètres de tâches dans les tâches Ray dans le guide du développeur.

  • NonOverridableArguments – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8.

    Chaque valeur est une chaîne UTF-8.

    Les arguments de cette tâche qui ne sont pas remplacés lorsque vous fournissez des arguments de tâche dans le cadre d'une exécution de tâche, spécifiés sous forme de paires nom-valeur.

  • Connections – Un objet ConnectionsList.

    Connexions utilisées pour la tâche.

  • MaxRetries : nombre (entier).

    Nombre maximal de tentatives de la tâche en cas d'échec de JobRun.

  • AllocatedCapacity : nombre (entier).

    Ce champ est obsolète. Utilisez MaxCapacity à la place.

    Nombre d'unités de traitement de données (DPU) AWS Glue Glue allouées à cette tâche. Vous pouvez allouer un minimum de 2 DPU ; la valeur par défaut est 10. Une DPU est une mesure relative de la puissance de traitement consistant en 4 vCPU de capacité de calcul et 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

  • Timeout – Nombre (entier), au moins égal à 1.

    Délai d'expiration de la tâche en minutes. Durée maximale durant laquelle une tâche exécutée peut consommer des ressources avant qu'elle ne se termine et n'entre dans l'état TIMEOUT.

    Les tâches doivent avoir des valeurs de délai d’expiration inférieures à 7 jours ou 10 080 minutes. Dans le cas contraire, les tâches déclencheront une exception.

    Lorsque la valeur est laissée vide, le délai d’expiration est défini par défaut sur 2 880 minutes.

    Toutes les tâches AWS Glue existantes dont la valeur du délai d’expiration est supérieure à sept jours seront définies par défaut sur sept jours. Par exemple, si vous avez spécifié un délai d’expiration de 20 jours pour un traitement par lots, celui-ci sera arrêté le 7e jour.

    Pour les tâches de streaming, si vous avez défini une fenêtre de maintenance, elles seront redémarrées au cours de celle-ci au bout de sept jours.

  • MaxCapacity – Nombre (double).

    Pour les tâches Glue version 1.0 ou antérieure, utilisant le type d'employé standard, le nombre d'unités de traitement de données AWS Glue (DPU) qui peuvent être allouées lors de l'exécution de cette tâche. Une DPU est une mesure relative de la puissance de traitement consistant en 4 vCPU de capacité de calcul et 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

    Pour les tâches des versions 2.0 ou ultérieures de Glue, vous ne pouvez pas spécifier de Maximum capacity. Au lieu de cela, vous devez spécifier Worker type et Number of workers.

    Ne définissez pas MaxCapacity si vous utilisez WorkerType et NumberOfWorkers.

    La valeur pouvant être attribuée à MaxCapacity varie selon que vous exécutez une tâche shell Python, une tâche ETL Apache Spark ou une tâche ETL Apache Spark Streaming :

    • Lorsque vous spécifiez une tâche shell Python (JobCommand.Name="pythonshell"), vous pouvez allouer 0,0625 ou 1 DPU. La valeur par défaut correspond à 0,0625 DPU.

    • Lorsque vous spécifiez une tâche ETL Apache Spark (JobCommand.Name="glueetl") ou une tâche ETL Apache Spark Streaming (JobCommand.Name="gluestreaming"), vous pouvez allouer de 2 à 100 DPU. La valeur par défaut est de 10 DPU. Ce type de tâche ne peut pas avoir une allocation DPU fractionnée.

  • WorkerType – Chaîne UTF-8 (valeurs valides: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Type de travail prédéfini qui est alloué lorsqu'une tâche est exécutée.

    AWS Glue propose plusieurs types de travailleurs pour répondre aux différentes exigences de charge de travail :

    Types de travailleurs G (travailleurs de calcul à usage général) :

    • G.1 X : 1 DPU (4 vCPU, 16 Go de mémoire, 94 Go de disque)

    • G.2X : 2 DPU (8 vCPU, 32 Go de mémoire, 138 Go de disque)

    • G.4X : 4 DPU (16 vCPU, 64 Go de mémoire, 256 Go de disque)

    • G.8X : 8 DPU (32 vCPU, 128 Go de mémoire, 512 Go de disque)

    • G.12X : 12 DPU (48 vCPU, 192 Go de mémoire, 768 Go de disque)

    • G.16X : 16 DPU (64 vCPU, 256 Go de mémoire, 1 024 Go de disque)

    Types de travailleurs R (travailleurs optimisés pour la mémoire) :

    • R.1X : 1 M-DPU (4 vCPU, 32 Go de mémoire)

    • R.2X : 2 M-DPU (8 vCPU, 64 Go de mémoire)

    • R.4X : 4 M-DPU (16 vCPU, 128 Go de mémoire)

    • R.8X : 8 M-DPU (32 vCPU, 256 Go de mémoire)

  • NumberOfWorkers : nombre (entier).

    Nombre de travaux d'un workerType défini qui sont attribués lorsqu'une tâche est exécutée.

  • SecurityConfiguration – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la structure SecurityConfiguration à utiliser avec cette tâche.

  • NotificationProperty – Un objet NotificationProperty.

    Spécifie les propriétés de configuration d'une notification de tâche.

  • Running : booléen.

    Ce champ est réservé pour un usage futur.

  • GlueVersion – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Custom string pattern #47.

    Dans les tâches Spark, GlueVersion détermine les versions d'Apache Spark et de Python qu'AWS Glue met à disposition dans une tâche. La version de Python indique la version prise en charge pour les tâches de type Spark.

    Les tâches Ray doivent définir GlueVersion sur 4.0 ou supérieur. Toutefois, les versions de Ray, de Python et des bibliothèques supplémentaires disponibles dans votre tâche Ray sont déterminées par le paramètre Runtime de la commande de tâche.

    Pour plus d'informations sur les versions AWS Glue disponibles et les versions Spark et Python correspondantes, consultez Glue version (Version Glue) dans le Guide du développeur.

    Les tâches créées sans que la version de Glue soit spécifiée sont des tâches Glue 0.9 par défaut.

  • CodeGenConfigurationNodes – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8, correspondant au Custom string pattern #58.

    Chaque valeur est un objet CodeGenConfigurationNode.

    Représentation d'un graphe orienté acyclique sur lequel le composant visuel Glue Studio et la génération de code Glue Studio sont basés.

  • ExecutionClass – Chaîne UTF-8, d'une longueur maximale de 16 octets (valeurs valides : FLEX="" | STANDARD="").

    Indique si la tâche est exécutée avec une classe d'exécution standard ou flexible. La classe d'exécution standard est idéale pour les charges de travail sensibles au temps qui nécessitent un démarrage rapide des tâches et des ressources dédiées.

    La classe d'exécution flexible, adaptée aux tâches non urgentes dont les heures de début et de fin peuvent varier.

    Seules les tâches avec la version 3.0 et au-delà AWS Glue et le type de commande glueetl seront autorisés à définir ExecutionClass sur FLEX. La classe d'exécution flexible est disponible pour les tâches Spark.

  • SourceControlDetails – Un objet SourceControlDetails.

    Les détails d'une configuration de contrôle source pour une tâche, permettant la synchronisation des artefacts de la tâche vers ou depuis un référentiel distant.

  • MaintenanceWindow – Chaîne UTF-8, correspondant au Custom string pattern #34.

    Ce champ indique un jour de la semaine et une heure pour une fenêtre de maintenance pour les tâches de streaming. AWS Glue effectue périodiquement des activités de maintenance. Au cours de ces fenêtres de maintenance, AWS Glue devra redémarrer vos tâches de streaming.

    AWS Glue redémarrera la tâche dans les trois heures suivant la fenêtre de maintenance spécifiée. Par exemple, si vous configurez la fenêtre de maintenance pour le lundi à 10h00 GMT, vos tâches seront redémarrées entre 10h00 GMT et 13h00 GMT.

  • ProfileName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom d’un profil d’utilisation AWS Glue associé à la tâche.

Structure ExecutionProperty

Propriété d'exécution d'une tâche.

Champs
  • MaxConcurrentRuns : nombre (entier).

    Nombre maximal d'exécutions simultanées autorisées pour la tâche. La valeur par défaut est 1. Une erreur est renvoyée lorsque ce seuil est atteint. La valeur maximale que vous pouvez spécifier est contrôlée par une limite de service.

Structure NotificationProperty

Spécifie les propriétés de configuration d'une notification.

Champs
  • NotifyDelayAfter – Nombre (entier), au moins égal à 1.

    Après le démarrage d'une exécution de tâche, nombre de minutes d'attente avant l'envoi d'une notification de délai d'exécution de tâche.

Structure JobCommand

Spécifie le code exécuté lorsqu'une tâche est exécutée.

Champs
  • Name – Chaîne UTF-8.

    Nom de la commande de tâche. Pour une tâche ETL Apache Spark, cette valeur doit être glueetl. Pour un shell Python, elle doit être pythonshell. Pour une tâche ETL Apache Spark Streaming, elle doit correspondre à gluestreaming. Pour une tâche Ray, cela doit être glueray.

  • ScriptLocation – Chaîne UTF-8, d'une longueur maximale de 400 000 octets.

    Spécifie le chemin d'accès Amazon Simple Storage Service (Amazon S3) à un script qui exécute une tâche.

  • PythonVersion – Chaîne UTF-8, correspondant au Custom string pattern #48.

    Version Python utilisée pour exécuter une tâche shell Python. Les valeurs autorisées sont 2 ou 3.

  • Runtime : chaîne UTF-8, d'une longueur ne dépassant pas 64 octets, correspondant au Custom string pattern #33.

    Dans les tâches Ray, l'exécution est utilisée pour spécifier les versions de Ray, de Python et des bibliothèques supplémentaires disponibles dans votre environnement. Ce champ n'est pas utilisé dans les autres types de tâches. Pour connaître les valeurs d’environnement d’exécution prises en charge, consultez Supported Ray runtime environments dans le Guide du développeur AWS Glue.

Structure ConnectionsList

Spécifie les connexions utilisées par une tâche.

Champs
  • Connections – Tableau de chaînes UTF-8, avec 1 000 chaînes maximum.

    Liste de connexions utilisées par la tâche.

Structure JobUpdate

Spécifie les informations utilisées pour mettre à jour une définition de tâche. La définition de tâche précédente est entièrement remplacée par ces informations.

Champs
  • JobMode – Chaîne UTF-8 (valeurs valides : SCRIPT="" | VISUAL="" | NOTEBOOK="").

    Mode qui décrit la façon dont une tâche a été créée. Les valeurs valides sont :

    • SCRIPT : la tâche a été créée à l’aide de l’éditeur de script AWS Glue Studio.

    • VISUAL : la tâche a été créée à l’aide de l’éditeur visuel AWS Glue Studio.

    • NOTEBOOK : la tâche a été créée à l’aide d’un bloc-notes de sessions interactives.

    Lorsque le champ JobMode est manquant ou a la valeur null, SCRIPT est attribué comme valeur par défaut.

  • JobRunQueuingEnabled : booléen.

    Indique si la mise en file d’attente des exécutions de tâches est activée pour les exécutions de cette tâche.

    La valeur true signifie que la mise en file d’attente des tâches est activée pour les exécutions de tâches. Si la valeur est false ou si elle n’est pas renseignée, les exécutions de tâches ne seront pas prises en compte pour la mise en file d’attente.

    Si ce champ ne correspond pas à la valeur définie dans l’exécution de la tâche, la valeur du champ d’exécution de la tâche sera utilisée.

  • Description – Chaîne de description, d’une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

    Description de la tâche définie.

  • LogUri – Chaîne UTF-8.

    Ce champ est réservé pour un usage futur.

  • Role – Chaîne UTF-8.

    Nom ou Amazon Resource Name (ARN) du rôle IAM associé à cette tâche (obligatoire).

  • ExecutionProperty : un objet ExecutionProperty.

    Objet ExecutionProperty spécifiant le nombre maximal d'exécutions simultanées autorisées pour cette tâche.

  • Command – Un objet JobCommand.

    Objet JobCommand qui exécute cette tâche (obligatoire).

  • DefaultArguments – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8.

    Chaque valeur est une chaîne UTF-8.

    Les arguments par défaut pour chaque exécution de cette tâche, spécifiés en tant que paires nom-valeur.

    Ici, vous pouvez spécifier des arguments que votre propre script tâche-exécution consomme, ainsi que des arguments que AWS Glue consomme lui-même.

    Les arguments de la tâche peuvent être consignés. Ne transmettez pas de secrets en texte clair comme arguments. Récupération des secrets à partir d'une connexion AWS Glue,AWS Secrets Manager ou tout autre mécanisme de gestion de secrets si vous avez l'intention de les conserver dans la tâche.

    Pour plus d'informations sur la façon de spécifier et d'utiliser vos propres arguments de Job, consultez la rubrique Appel d'API AWS Glue en Python dans le Guide du développeur.

    Pour plus d'informations sur les arguments que vous pouvez fournir dans ce champ lors de la configuration des tâches Spark, consultez la rubrique Special Parameters Used by AWS Glue dans le guide du développeur.

    Pour plus d'informations sur les arguments que vous pouvez fournir dans ce champ lors de la configuration des tâches Ray, consultez Utilisation des paramètres de tâches dans les tâches Ray dans le guide du développeur.

  • NonOverridableArguments – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8.

    Chaque valeur est une chaîne UTF-8.

    Les arguments de cette tâche qui ne sont pas remplacés lorsque vous fournissez des arguments de tâche dans le cadre d'une exécution de tâche, spécifiés sous forme de paires nom-valeur.

  • Connections – Un objet ConnectionsList.

    Connexions utilisées pour la tâche.

  • MaxRetries : nombre (entier).

    Nombre maximum de tentatives de cette tâche en cas d'échec.

  • AllocatedCapacity : nombre (entier).

    Ce champ est obsolète. Utilisez MaxCapacity à la place.

    Nombre d'unités de traitement de données (DPU) AWS Glue Glue à allouer à cette tâche. Vous pouvez allouer un minimum de 2 DPU ; la valeur par défaut est 10. Une DPU est une mesure relative de la puissance de traitement consistant en 4 vCPU de capacité de calcul et 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

  • Timeout – Nombre (entier), au moins égal à 1.

    Délai d'expiration de la tâche en minutes. Durée maximale durant laquelle une tâche exécutée peut consommer des ressources avant qu'elle ne se termine et n'entre dans l'état TIMEOUT.

    Les tâches doivent avoir des valeurs de délai d’expiration inférieures à 7 jours ou 10 080 minutes. Dans le cas contraire, les tâches déclencheront une exception.

    Lorsque la valeur est laissée vide, le délai d’expiration est défini par défaut sur 2 880 minutes.

    Toutes les tâches AWS Glue existantes dont la valeur du délai d’expiration est supérieure à sept jours seront définies par défaut sur sept jours. Par exemple, si vous avez spécifié un délai d’expiration de 20 jours pour un traitement par lots, celui-ci sera arrêté le 7e jour.

    Pour les tâches de streaming, si vous avez défini une fenêtre de maintenance, elles seront redémarrées au cours de celle-ci au bout de sept jours.

  • MaxCapacity – Nombre (double).

    Pour les tâches Glue version 1.0 ou antérieure, utilisant le type d'employé standard, le nombre d'unités de traitement de données AWS Glue (DPU) qui peuvent être allouées lors de l'exécution de cette tâche. Une DPU est une mesure relative de la puissance de traitement consistant en 4 vCPU de capacité de calcul et 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

    Pour les tâches des versions 2.0 et ultérieures de Glue, vous ne pouvez pas spécifier un Maximum capacity. Au lieu de cela, vous devez spécifier Worker type et Number of workers.

    Ne définissez pas MaxCapacity si vous utilisez WorkerType et NumberOfWorkers.

    La valeur pouvant être attribuée à MaxCapacity varie selon que vous exécutez une tâche shell Python, une tâche ETL Apache Spark ou une tâche ETL Apache Spark Streaming :

    • Lorsque vous spécifiez une tâche shell Python (JobCommand.Name="pythonshell"), vous pouvez allouer 0,0625 ou 1 DPU. La valeur par défaut correspond à 0,0625 DPU.

    • Lorsque vous spécifiez une tâche ETL Apache Spark (JobCommand.Name="glueetl") ou une tâche ETL Apache Spark Streaming (JobCommand.Name="gluestreaming"), vous pouvez allouer de 2 à 100 DPU. La valeur par défaut est de 10 DPU. Ce type de tâche ne peut pas avoir une allocation DPU fractionnée.

  • WorkerType – Chaîne UTF-8 (valeurs valides: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Type de travail prédéfini qui est alloué lorsqu'une tâche est exécutée. Accepte une valeur de G.1X, G.2X, G.4X, G.8X ou G.025X pour les tâches Spark. Accepte la valeur Z.2X pour les tâches Ray. Pour plus d’informations, consultez Defining job properties for Spark jobs.

  • NumberOfWorkers : nombre (entier).

    Nombre de travaux d'un workerType défini qui sont attribués lorsqu'une tâche est exécutée.

  • SecurityConfiguration – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la structure SecurityConfiguration à utiliser avec cette tâche.

  • NotificationProperty – Un objet NotificationProperty.

    Spécifie les propriétés de configuration d'une notification de tâche.

  • GlueVersion – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Custom string pattern #47.

    Dans les tâches Spark, GlueVersion détermine les versions d'Apache Spark et de Python qu'AWS Glue met à disposition dans une tâche. La version de Python indique la version prise en charge pour les tâches de type Spark.

    Les tâches Ray doivent définir GlueVersion sur 4.0 ou supérieur. Toutefois, les versions de Ray, de Python et des bibliothèques supplémentaires disponibles dans votre tâche Ray sont déterminées par le paramètre Runtime de la commande de tâche.

    Pour plus d'informations sur les versions AWS Glue disponibles et les versions Spark et Python correspondantes, consultez Glue version (Version Glue) dans le Guide du développeur.

    Les tâches créées sans que la version de Glue soit spécifiée sont des tâches Glue 0.9 par défaut.

  • CodeGenConfigurationNodes – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8, correspondant au Custom string pattern #58.

    Chaque valeur est un objet CodeGenConfigurationNode.

    Représentation d'un graphe orienté acyclique sur lequel le composant visuel Glue Studio et la génération de code Glue Studio sont basés.

  • ExecutionClass – Chaîne UTF-8, d'une longueur maximale de 16 octets (valeurs valides : FLEX="" | STANDARD="").

    Indique si la tâche est exécutée avec une classe d'exécution standard ou flexible. La classe d'exécution standard est idéale pour les charges de travail urgentes qui nécessitent un démarrage rapide des tâches et des ressources dédiées.

    La classe d'exécution flexible, adaptée aux tâches non urgentes dont les heures de début et de fin peuvent varier.

    Seules les tâches avec la version 3.0 et au-delà AWS Glue et le type de commande glueetl seront autorisés à définir ExecutionClass sur FLEX. La classe d'exécution flexible est disponible pour les tâches Spark.

  • SourceControlDetails – Un objet SourceControlDetails.

    Les détails d'une configuration de contrôle source pour une tâche, permettant la synchronisation des artefacts de la tâche vers ou depuis un référentiel distant.

  • MaintenanceWindow – Chaîne UTF-8, correspondant au Custom string pattern #34.

    Ce champ indique un jour de la semaine et une heure pour une fenêtre de maintenance pour les tâches de streaming. AWS Glue effectue périodiquement des activités de maintenance. Au cours de ces fenêtres de maintenance, AWS Glue devra redémarrer vos tâches de streaming.

    AWS Glue redémarrera la tâche dans les trois heures suivant la fenêtre de maintenance spécifiée. Par exemple, si vous configurez la fenêtre de maintenance pour le lundi à 10h00 GMT, vos tâches seront redémarrées entre 10h00 GMT et 13h00 GMT.

  • ProfileName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom d’un profil d’utilisation AWS Glue associé à la tâche.

Structure SourceControlDetails

Les détails d'une configuration de contrôle source pour une tâche, permettant la synchronisation des artefacts de la tâche vers ou depuis un référentiel distant.

Champs
  • Provider – Chaîne UTF-8 (valeurs valides : GITHUB | AWS_CODE_COMMIT).

    Le fournisseur du référentiel distant.

  • Repository – chaîne UTF-8, d’une longueur comprise entre 1 et 512 octets.

    Le nom du référentiel distant qui contient les artefacts de la tâche.

  • Owner – chaîne UTF-8, d’une longueur comprise entre 1 et 512 octets.

    Le propriétaire du référentiel distant qui contient les artefacts de la tâche.

  • Branch – chaîne UTF-8, d’une longueur comprise entre 1 et 512 octets.

    Une branche facultative dans le référentiel distant.

  • Folder – chaîne UTF-8, d’une longueur comprise entre 1 et 512 octets.

    Un dossier facultatif dans le référentiel distant.

  • LastCommitId – chaîne UTF-8, d’une longueur comprise entre 1 et 512 octets.

    Le dernier identifiant de validation pour une validation dans le référentiel distant.

  • LastSyncTimestamp – chaîne UTF-8, d’une longueur comprise entre 1 et 512 octets.

    La date et l'heure auxquelles la dernière synchronisation de la tâche a été effectuée.

  • AuthStrategy – Chaîne UTF-8 (valeurs valides : PERSONAL_ACCESS_TOKEN | AWS_SECRETS_MANAGER).

    Le type d'authentification, qui peut être un jeton d'authentification stocké dans AWS Secrets Manager, ou un jeton d'accès personnel.

  • AuthToken – chaîne UTF-8, d’une longueur comprise entre 1 et 512 octets.

    La valeur d'un jeton d'autorisation.

Opérations

Action CreateJob (Python : create_job)

Crée une nouvelle définition de tâche.

Demande
  • NameObligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom que vous affectez à la définition de la tâche. Doit être unique au sein de votre compte .

  • JobMode – Chaîne UTF-8 (valeurs valides : SCRIPT="" | VISUAL="" | NOTEBOOK="").

    Mode qui décrit la façon dont une tâche a été créée. Les valeurs valides sont :

    • SCRIPT : la tâche a été créée à l’aide de l’éditeur de script AWS Glue Studio.

    • VISUAL : la tâche a été créée à l’aide de l’éditeur visuel AWS Glue Studio.

    • NOTEBOOK : la tâche a été créée à l’aide d’un bloc-notes de sessions interactives.

    Lorsque le champ JobMode est manquant ou a la valeur null, SCRIPT est attribué comme valeur par défaut.

  • JobRunQueuingEnabled : booléen.

    Indique si la mise en file d’attente des exécutions de tâches est activée pour les exécutions de cette tâche.

    La valeur true signifie que la mise en file d’attente des tâches est activée pour les exécutions de tâches. Si la valeur est false ou si elle n’est pas renseignée, les exécutions de tâches ne seront pas prises en compte pour la mise en file d’attente.

    Si ce champ ne correspond pas à la valeur définie dans l’exécution de la tâche, la valeur du champ d’exécution de la tâche sera utilisée.

  • Description – Chaîne de description, d’une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

    Description de la tâche définie.

  • LogUri – Chaîne UTF-8.

    Ce champ est réservé pour un usage futur.

  • RoleObligatoire : chaîne UTF-8.

    Nom ou Amazon Resource Name (ARN) du rôle IAM associé à cette tâche.

  • ExecutionProperty : un objet ExecutionProperty.

    Objet ExecutionProperty spécifiant le nombre maximal d'exécutions simultanées autorisées pour cette tâche.

  • CommandObligatoire : un objet JobCommand.

    La commande JobCommand qui exécute cette tâche.

  • DefaultArguments – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8.

    Chaque valeur est une chaîne UTF-8.

    Les arguments par défaut pour chaque exécution de cette tâche, spécifiés en tant que paires nom-valeur.

    Ici, vous pouvez spécifier des arguments que votre propre script tâche-exécution consomme, ainsi que des arguments que AWS Glue consomme lui-même.

    Les arguments de la tâche peuvent être consignés. Ne transmettez pas de secrets en texte clair comme arguments. Récupération des secrets à partir d'une connexion AWS Glue,AWS Secrets Manager ou tout autre mécanisme de gestion de secrets si vous avez l'intention de les conserver dans la tâche.

    Pour plus d'informations sur la façon de spécifier et d'utiliser vos propres arguments de Job, consultez la rubrique Appel d'API AWS Glue en Python dans le Guide du développeur.

    Pour plus d'informations sur les arguments que vous pouvez fournir dans ce champ lors de la configuration des tâches Spark, consultez la rubrique Special Parameters Used by AWS Glue dans le guide du développeur.

    Pour plus d'informations sur les arguments que vous pouvez fournir dans ce champ lors de la configuration des tâches Ray, consultez Utilisation des paramètres de tâches dans les tâches Ray dans le guide du développeur.

  • NonOverridableArguments – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8.

    Chaque valeur est une chaîne UTF-8.

    Les arguments de cette tâche qui ne sont pas remplacés lorsque vous fournissez des arguments de tâche dans le cadre d'une exécution de tâche, spécifiés sous forme de paires nom-valeur.

  • Connections – Un objet ConnectionsList.

    Connexions utilisées pour la tâche.

  • MaxRetries : nombre (entier).

    Nombre maximum de tentatives de cette tâche en cas d'échec.

  • AllocatedCapacity : nombre (entier).

    Ce paramètre est obsolète. Utilisez MaxCapacity à la place.

    Nombre d'unités de traitement de données (DPU) AWS Glue Glue à allouer à cette tâche. Vous pouvez allouer un minimum de 2 DPU ; la valeur par défaut est 10. Une DPU est une mesure relative de la puissance de traitement consistant en 4 vCPU de capacité de calcul et 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

  • Timeout – Nombre (entier), au moins égal à 1.

    Délai d'expiration de la tâche en minutes. Durée maximale durant laquelle une tâche exécutée peut consommer des ressources avant qu'elle ne se termine et n'entre dans l'état TIMEOUT.

    Les tâches doivent avoir des valeurs de délai d’expiration inférieures à 7 jours ou 10 080 minutes. Dans le cas contraire, les tâches déclencheront une exception.

    Lorsque la valeur est laissée vide, le délai d’expiration est défini par défaut sur 2 880 minutes.

    Toutes les tâches AWS Glue existantes dont la valeur du délai d’expiration est supérieure à sept jours seront définies par défaut sur sept jours. Par exemple, si vous avez spécifié un délai d’expiration de 20 jours pour un traitement par lots, celui-ci sera arrêté le 7e jour.

    Pour les tâches de streaming, si vous avez défini une fenêtre de maintenance, elles seront redémarrées au cours de celle-ci au bout de sept jours.

  • MaxCapacity – Nombre (double).

    Pour les tâches Glue version 1.0 ou antérieure, utilisant le type d'employé standard, le nombre d'unités de traitement de données AWS Glue (DPU) qui peuvent être allouées lors de l'exécution de cette tâche. Une DPU est une mesure relative de la puissance de traitement consistant en 4 vCPU de capacité de calcul et 16 Go de mémoire. Pour plus d'informations, consultez la page de tarification AWS Glue.

    Pour les tâches des versions 2.0 et ultérieures de Glue, vous ne pouvez pas spécifier un Maximum capacity. Au lieu de cela, vous devez spécifier Worker type et Number of workers.

    Ne définissez pas MaxCapacity si vous utilisez WorkerType et NumberOfWorkers.

    La valeur pouvant être attribuée à MaxCapacity varie selon que vous exécutez une tâche shell Python, une tâche ETL Apache Spark ou une tâche ETL Apache Spark Streaming :

    • Lorsque vous spécifiez une tâche shell Python (JobCommand.Name="pythonshell"), vous pouvez allouer 0,0625 ou 1 DPU. La valeur par défaut correspond à 0,0625 DPU.

    • Lorsque vous spécifiez une tâche ETL Apache Spark (JobCommand.Name="glueetl") ou une tâche ETL Apache Spark Streaming (JobCommand.Name="gluestreaming"), vous pouvez allouer de 2 à 100 DPU. La valeur par défaut est de 10 DPU. Ce type de tâche ne peut pas avoir une allocation DPU fractionnée.

  • SecurityConfiguration – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la structure SecurityConfiguration à utiliser avec cette tâche.

  • Tags – tableau de mappage de paires clé-valeur, avec 50 paires au maximum.

    Chaque clé est une chaîne UTF-8, d’une longueur comprise entre 1 et 128 octets.

    Chaque valeur est une chaîne UTF-8, d’une longueur maximale de 256 octets.

    Balises à utiliser avec cette tâche. Vous pouvez utiliser des balises pour limiter l'accès à la tâche. Pour plus d'informations sur les balises dans AWS Glue, veuillez consulter la rubrique Balises AWS dans AWS Glue dans le guide du développeur.

  • NotificationProperty – Un objet NotificationProperty.

    Spécifie les propriétés de configuration d'une notification de tâche.

  • GlueVersion – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Custom string pattern #47.

    Dans les tâches Spark, GlueVersion détermine les versions d'Apache Spark et de Python qu'AWS Glue met à disposition dans une tâche. La version de Python indique la version prise en charge pour les tâches de type Spark.

    Les tâches Ray doivent définir GlueVersion sur 4.0 ou supérieur. Toutefois, les versions de Ray, de Python et des bibliothèques supplémentaires disponibles dans votre tâche Ray sont déterminées par le paramètre Runtime de la commande de tâche.

    Pour plus d'informations sur les versions AWS Glue disponibles et les versions Spark et Python correspondantes, consultez Glue version (Version Glue) dans le Guide du développeur.

    Les tâches créées sans que la version de Glue soit spécifiée sont des tâches Glue 0.9 par défaut.

  • NumberOfWorkers : nombre (entier).

    Nombre de travaux d'un workerType défini qui sont attribués lorsqu'une tâche est exécutée.

  • WorkerType – Chaîne UTF-8 (valeurs valides: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Type de travail prédéfini qui est alloué lorsqu'une tâche est exécutée. Accepte une valeur de G.1X, G.2X, G.4X, G.8X ou G.025X pour les tâches Spark. Accepte la valeur Z.2X pour les tâches Ray.

    • Pour le type de travailleur G.1X, chaque travailleur mappe vers 1 DPU (4 vCPU, 16 Go de mémoire) avec 94 Go d’espace disque, et fournit 1 exécuteur par travailleur. Nous recommandons ce type de travailleur pour les charges de travail telles que les transformations de données, les jointures et les requêtes, afin de proposer un moyen évolutif et rentable d'exécuter la plupart des tâches.

    • Pour le type de travailleur G.2X, chaque travailleur mappe vers 2 DPU (8 vCPU, 32 Go de mémoire) avec 138 Go d’espace disque, et fournit 1 exécuteur par travailleur. Nous recommandons ce type de travailleur pour les charges de travail telles que les transformations de données, les jointures et les requêtes, afin de proposer un moyen évolutif et rentable d'exécuter la plupart des tâches.

    • Pour le type de travailleur G.4X, chaque travailleur mappe vers 4 DPU (16 vCPU, 64 Go de mémoire) avec 256 Go d’espace disque, et fournit 1 exécuteur par travailleur. Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleurs n’est disponible que pour les tâches ETL Spark AWS Glue versions 3.0 ou ultérieures dans les Régions AWS suivantes : USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Californie du Nord), USA Ouest (Oregon), Asie-Pacifique (Mumbai), Asie-Pacifique (Séoul), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Canada (Centre), Europe (Francfort), Europe (Irlande), Europe (Londres), Europe (Espagne), Europe (Stockholm) et Amérique du Sud (São Paulo).

    • Pour le type de travailleur G.8X, chaque travailleur mappe vers 8 DPU (32 vCPU, 128 Go de mémoire) avec 512 Go d’espace disque, et fournit 1 exécuteur par travailleur. Nous recommandons ce type de travailleur pour les tâches dont les charges de travail contiennent les transformations, les agrégations, les jointures et les requêtes les plus exigeantes. Ce type de travailleur n'est disponible que pour les tâches ETL Spark de des versions 3.0 ou ultérieures d'AWS Glue, dans les mêmes régions AWS que celles prises en charge pour le type de travailleur G.4X.

    • Pour le type de travailleur G.025X, chaque travailleur mappe vers 0,25 DPU (2 vCPU, 4 Go de mémoire) avec 84 Go d’espace disque, et fournit 1 exécuteur par travailleur. Nous recommandons ce type d'employé pour les travaux de streaming à faible volume. Ce type de travailleur est uniquement disponible pour les tâches de streaming avec AWS Glue versions 3.0 ou ultérieures.

    • Pour le type de travailleur Z.2X, chaque travailleur mappe vers 2 M-DPU (8 vCPU, 64 Go de mémoire) avec 128 Go d’espace disque, et fournit jusqu’à 8 travailleurs Ray en fonction de la scalabilité automatique.

  • CodeGenConfigurationNodes – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF-8, correspondant au Custom string pattern #58.

    Chaque valeur est un objet CodeGenConfigurationNode.

    Représentation d'un graphe orienté acyclique sur lequel le composant visuel Glue Studio et la génération de code Glue Studio sont basés.

  • ExecutionClass – Chaîne UTF-8, d'une longueur maximale de 16 octets (valeurs valides : FLEX="" | STANDARD="").

    Indique si la tâche est exécutée avec une classe d'exécution standard ou flexible. La classe d'exécution standard est idéale pour les charges de travail urgentes qui nécessitent un démarrage rapide des tâches et des ressources dédiées.

    La classe d'exécution flexible, adaptée aux tâches non urgentes dont les heures de début et de fin peuvent varier.

    Seules les tâches avec la version 3.0 et au-delà AWS Glue et le type de commande glueetl seront autorisés à définir ExecutionClass sur FLEX. La classe d'exécution flexible est disponible pour les tâches Spark.

  • SourceControlDetails – Un objet SourceControlDetails.

    Les détails d'une configuration de contrôle source pour une tâche, permettant la synchronisation des artefacts de la tâche vers ou depuis un référentiel distant.

  • MaintenanceWindow – Chaîne UTF-8, correspondant au Custom string pattern #34.

    Ce champ indique un jour de la semaine et une heure pour une fenêtre de maintenance pour les tâches de streaming. AWS Glue effectue périodiquement des activités de maintenance. Au cours de ces fenêtres de maintenance, AWS Glue devra redémarrer vos tâches de streaming.

    AWS Glue redémarrera la tâche dans les trois heures suivant la fenêtre de maintenance spécifiée. Par exemple, si vous configurez la fenêtre de maintenance pour le lundi à 10h00 GMT, vos tâches seront redémarrées entre 10h00 GMT et 13h00 GMT.

  • ProfileName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom d’un profil d’utilisation AWS Glue associé à la tâche.

Réponse
  • Name – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Le nom unique qui a été fourni pour cette définition de tâche.

Erreurs
  • InvalidInputException

  • IdempotentParameterMismatchException

  • AlreadyExistsException

  • InternalServiceException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • ConcurrentModificationException

Action UpdateJob (Python : update_job)

Met à jour une définition de tâche. La définition de tâche précédente est entièrement remplacée par ces informations.

Demande
  • JobNameObligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la définition de tâche à mettre à jour.

  • JobUpdateObligatoire : un objet JobUpdate.

    Spécifie les valeurs avec lesquelles mettre à jour la définition de la tâche. Toute configuration non spécifiée est supprimée ou réinitialisée aux valeurs par défaut.

  • ProfileName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom d’un profil d’utilisation AWS Glue associé à la tâche.

Réponse
  • JobName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Retourne le nom de la définition de tâche mise à jour.

Erreurs
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • ConcurrentModificationException

Action GetJob (Python: get_job)

Extrait une définition de tâche.

Demande
  • JobNameObligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la définition de tâche à extraire.

Réponse
  • Job – Un objet Tâche.

    Définition de tâche requise.

Erreurs
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

Action GetJobs (Python : get_jobs)

Récupère toutes les définitions de tâche actuelles.

Demande
  • NextToken – Chaîne UTF-8.

    Jeton de continuation, s’il s’agit d’un appel de continuation.

  • MaxResults – Nombre (entier), compris entre 1 et 1 000.

    Taille maximale de la réponse.

Réponse
  • Jobs : un tableau d’objets Tâche.

    Liste des définitions de tâche.

  • NextToken – Chaîne UTF-8.

    Jeton de continuation, si toutes les définitions de tâche n'ont pas encore été renvoyées.

Erreurs
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

Action DeleteJob (Python : delete_job)

Supprime une définition de tâche spécifiée. Si la définition de tâche est introuvable, aucune exception n'est levée.

Demande
  • JobNameObligatoire : Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la définition de tâche à supprimer.

Réponse
  • JobName – Chaîne UTF-8, d’une longueur comprise entre 1 et 255 octets, correspondant au Single-line string pattern.

    Nom de la définition de tâche qui a été supprimée.

Erreurs
  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

Action ListJobs (Python : list_jobs)

Récupère les noms de toutes les ressources de tâche dans ce compte AWS, ou des ressources avec la balise spécifiée. Cette opération vous permet de voir quelles ressources sont disponibles dans votre compte, et leurs noms.

Cette opération accepte le champ Tags facultatif que vous pouvez utiliser comme filtre sur la réponse, afin que les ressources balisées puissent être récupérées en tant que groupe. Si vous choisissez d'utiliser le filtrage des balises, seules les ressources avec la balise sont récupérées.

Demande
  • NextToken – Chaîne UTF-8.

    Jeton de continuation, s’il s’agit d’une requête de continuation.

  • MaxResults – Nombre (entier), compris entre 1 et 1 000.

    La taille maximale d’une liste à renvoyer.

  • Tags – tableau de mappage de paires clé-valeur, avec 50 paires au maximum.

    Chaque clé est une chaîne UTF-8, d’une longueur comprise entre 1 et 128 octets.

    Chaque valeur est une chaîne UTF-8, d’une longueur maximale de 256 octets.

    Spécifie de renvoyer uniquement les ressources balisées.

Réponse
  • JobNames – Tableau de chaînes UTF-8.

    Noms de toutes les tâches dans le compte ou des tâches avec les balises spécifiées.

  • NextToken – Chaîne UTF-8.

    Jeton continuation, si la liste renvoyée ne contient pas la dernière métrique disponible.

Erreurs
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

Action BatchGetJobs (Python : batch_get_jobs)

Renvoie la liste des métadonnées de ressource pour une liste donnée de noms de tâche. Après avoir appelé l’opération ListJobs, vous pouvez appeler cette opération pour accéder aux données sur lesquelles des autorisations vous ont été octroyées. Cette opération prend en charge toutes les autorisations IAM, y compris les conditions d’autorisation qui utilisent des balises.

Demande
  • JobNamesobligatoire : tableau de chaînes UTF-8.

    Liste des noms de tâche, qui peuvent être les noms renvoyés à partir de l'opération ListJobs.

Réponse
  • Jobs : un tableau d’objets Tâche.

    Liste des définitions de tâche.

  • JobsNotFound – Tableau de chaînes UTF-8.

    Liste de noms de tâches introuvables.

Erreurs
  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException