Versions AWS Glue - AWS Glue

Versions AWS Glue

Vous pouvez configurer le paramètre de version AWS Glue en cas d'ajout ou de mise à jour d'une tâche. La version AWS Glue détermine les versions d'Apache Spark et de Python prises en charge par AWS Glue. La version de Python indique la version qui est prise en charge pour les tâches de type Spark. Le tableau suivant répertorie les versions d'AWS Glue Glue disponibles, les versions Spark et Python correspondantes, ainsi que les autres modifications de fonctionnalité.

Versions AWS Glue

Version de AWS Glue Versions d'environnement d'exécution prises en charge Version Java prise en charge Changements de fonctionnalité
AWS Glue 5.0
  • Spark 3.5.4

  • Python 3.11

  • Scala 2.12.18

Java 17

En plus des mises à jour du cadre, des optimisations et des mises à niveau sont intégrées à cette version d’AWS Glue, telles que :

  • Prise en charge d’Amazon SageMaker Unified Studio

  • Prise en charge d’Amazon SageMaker Lakehouse

  • Open Table Formats (OTF) mis à jour vers Hudi 0.15.0, Iceberg 1.7.1 et Delta Lake 3.3.0

  • Contrôle précis des accès natif Spark utilisant Lake Formation.

  • Prise en charge d’autorisations d’accès Amazon S3

  • Prise en charge de requirements.txt pour installer des bibliothèques Python supplémentaires

  • Prise en charge de la traçabilité des données dans Amazon DataZone

  • Prise en charge des compartiments de tableaux Amazon S3

  • Prise en charge de l’affichage en plusieurs dialectes du catalogue de données AWS Glue

Limites

Voici les limites de  5.0 : AWS Glue 5.0:

  • Le contrôle d’accès au niveau du tableau basé sur Glue Dynamic Frame/GlueContext avec des autorisations AWS Lake Formation prises en charge dans Glue 4.0 ou version antérieure n’est pas pris en charge dans Glue 5.0. Utilisez le nouveau contrôle précis des accès (FGAC) natif Spark de Glue 5.0.

Pour plus d'informations sur la migration vers AWS Glue version 5.0, consultez Migration de tâches AWS Glue pour Spark vers AWS Glue version 5.0.

AWS Glue 4.0 Versions de l'environnement Spark
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue 4.0 compte un certain nombre d’optimisations et de mises à niveau intégrées à cette version d’AWS Glue, telles que :

  • De nombreuses mises à niveau des fonctionnalités Spark de Spark 3.1 vers Spark 3.3 :

    • Plusieurs améliorations de fonctionnalités lorsqu'il est associé à Pandas. Pour plus d'informations, consultez Nouveautés de Spark 3.3.

    • Optimisations supplémentaires développées sur Amazon EMR.

    • Mise à niveau vers le système de fichiers EMR (EMRFS) 2.53.

  • Migration de Log4j 2 à partir de Log4j 1.x

  • Plusieurs mises à jour de modules Python depuis AWS Glue version 3.0, comme une version de Boto mise à niveau.

  • Mise à niveau de plusieurs connecteurs, notamment le connecteur Amazon Redshift par défaut. Consultez Annexe C : Mises à niveau des connecteurs.

  • Mise à niveau de plusieurs pilotes JDBC. Consultez Annexe B : Mises à niveau du pilote JDBC.

  • Utilisation d'un nouveau connecteur Amazon Redshift et d'un nouveau pilote JDBC.

  • Prise en charge native des infrastructures de lac de données ouverts avec Apache Hudi, Delta Lake et Apache Iceberg.

  • Prise en charge native du plug-in Cloud Shuffle Storage basé sur Amazon S3 (un plug-in Apache Spark) permettant d'utiliser Amazon S3 pour la réorganisation et la capacité de stockage élastique.

Limites

Voici les limites de AWS Glue 4.0 :

  • Les transformations de machine learning et de données d'identification personnelle (PII) de AWS Glue ne sont pas encore disponibles dans AWS Glue 4.0.

Pour plus d'informations sur la migration vers AWS Glue version 4.0, consultez Migration de tâches AWS Glue pour Spark vers AWS Glue version 4.0.

Versions de l'environnement Ray
  • Ray 2.4.0

    Python 3.9

N/A

Créez et exécutez des applications Python distribuées avec AWS Glue pour Ray.

Limitations des tâches Ray dans la version 4.0 de AWS Glue

  • Les sessions interactives AWS Glue pour Ray restent en avant-première pour cette version.

  • L'intégration AWS Glue pour Ray avec Amazon VPC n'est pas disponible actuellement. Les ressources d'un VPC dans AWS ne seront pas accessibles sans routage public. Pour plus d'informations sur l'utilisation de AWS Glue avec les Amazon VPC, consultez Configuration de points de terminaison d’un VPC d’interface (AWS PrivateLink) pour AWS Glue (AWS PrivateLink).

  • AWS Glue pour Ray est disponible dans les régions suivantes : USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), Asie-Pacifique (Tokyo) et Europe (Irlande).

AWS Glue 3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

En plus de la mise à niveau du moteur Spark vers 3.0, des optimisations et des mises à niveau sont intégrées à cette version de AWS Glue, telles que :

  • Crée la bibliothèque ETL AWS Glue par rapport à Spark 3.0, qui est une version majeure de Spark.

  • Les tâches de streaming sont prises en charge sur AWS Glue 3.0.

  • Inclut de nouvelles optimisations d'exécution AWS Glue Spark pour les performances et la fiabilité :

    • Traitement plus rapide des colonnes en mémoire basé sur Apache Arrow pour la lecture des données CSV.

    • Exécution basée sur SIMD pour les lectures vectorisées avec des données CSV.

    • La mise à niveau Spark inclut également des optimisations supplémentaires développées sur Amazon EMR.

    • EMRFS mis à niveau de la version 2.38 à 2.46 offrant de nouvelles fonctionnalités et des corrections de bogues pour l'accès à Amazon S3.

  • Mise à niveau de plusieurs dépendances requises pour la nouvelle version de Spark.

  • Pilotes JDBC mis à niveau pour nos sources de données prises en charge en mode natif.

Limites

Voici les limites de AWS Glue 3.0 :

  • Les transformations de machine learning AWS Glue ne sont pas encore disponibles dans AWS Glue 3.0.

  • Certains connecteurs Spark personnalisés ne fonctionnent pas avec AWS Glue 3.0 s'ils dépendent de Spark 2.4 et ne sont pas compatibles avec Spark 3.1.

AWS Glue 2.0 (fin de vie le 1er avril 2026)
  • Spark 2.4.3

  • Python 3.7

N/A

Outre les fonctionnalités fournies dans AWS Glue version 1.0, AWS Glue version 2.0 fournit également :

  • Une infrastructure mise à niveau pour exécuter des tâches ETL Apache Spark dans AWS Glueavec des temps de démarrage réduits.

  • Désormais, la journalisation par défaut est en temps réel, avec des flux séparés pour les pilotes et les exécuteurs, ainsi que des sorties et des erreurs.

  • Prise en charge de la spécification de modules Python supplémentaires ou de versions différentes au niveau de la tâche.

Note

AWS Glue version 2.0 diffère de AWS Glue version 1.0 pour certaines dépendances et versions en raison de modifications architecturales sous-jacentes. Validez vos tâches AWS Glue avant de migrer vers les versions AWS Glue majeures.

AWS Glue 1.0 (fin de vie le 1er avril 2026)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/A

Vous pouvez gérer les signets de tâche pour les formats Parquet et ORC dans les tâches ETL AWS Glue (avec AWS Glue version 1.0). Auparavant, vous pouviez uniquement marquer des formats sources Amazon S3 courants tels que JSON, CSV, Apache Avro et XML dans les tâches ETL AWS Glue.

Lors de la définition des options de format pour les entrées et sorties ETL, vous pouvez spécifier d'utiliser le format de lecture/écriture Apache Avro 1.8 pour prendre en charge la lecture et l'écriture de type logique Avro (à l'aide de AWS Glue version 1.0). Auparavant, seul le format de lecture/écriture Avro 1.7 était pris en charge.

Le type de connexion DynamoDB prend en charge une option d'écriture (à l'aide de AWS Glue version 1.0).

Limites

Voici les limites de AWS Glue 1.0 :

  • Les versions 0.9 et 1.0 de AWS Glue ne sont désormais pas disponibles dans les régions Asie-Pacifique (Jakarta) (ap-southeast-3), Moyen-Orient (EAU) (me-central-1) ou dans les autres nouvelles régions.

AWS Glue 0.9 (fin de vie le 1er avril 2026)
  • Spark 2.2.1

  • Python 2.7

N/A

Les tâches créées sans qu'une version de AWS Glue soit spécifiée sont des tâches AWS Glue 0.9 par défaut.

Limites

Voici les limites de AWS Glue 0.9 :

  • Les versions 0.9 et 1.0 de AWS Glue ne sont désormais pas disponibles dans les régions Asie-Pacifique (Jakarta) (ap-southeast-3), Moyen-Orient (EAU) (me-central-1) ou dans les autres nouvelles régions.

Note

Les versions de Glue suivantes sont compatibles avec ces versions de PythonShell :

  • PythonShell 3.6 est pris en charge dans Glue version 1.0.

  • PythonShell 3.9 est pris en charge dans Glue version 3.0.

De plus, les points de terminaison de développement ne sont pris en charge que dans les versions 1.0 et 0.9 de Glue.