AWS Glue versions - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS Glue versions

Vous pouvez configurer le paramètre de AWS Glue version lorsque vous ajoutez ou mettez à jour une tâche. La AWS Glue version détermine les versions d'Apache Spark et de Python prises AWS Glue en charge. La version de Python indique la version qui est prise en charge pour les tâches de type Spark. Le tableau suivant répertorie les versions d' AWS Glue Glue disponibles, les versions Spark et Python correspondantes, ainsi que les autres modifications de fonctionnalité.

Vous pouvez utiliser les mises à niveau de Generative AI pour Apache Spark afin de mettre à niveau vos jobs Glue ETL des anciennes versions de Glue (≥ 2.0) vers la dernière version de Glue.

AWS Glue versions

AWS Glue version Versions d'environnement d'exécution prises en charge Version Java prise en charge Changements de fonctionnalité
AWS Glue 5,1
  • Spark 3.5.6

  • Python 3.11

  • Scala 2.12.18

Java 17

Outre la mise à niveau du moteur Spark, des optimisations et des mises à niveau sont intégrées à cette AWS Glue version, telles que :

  • Formats de table ouverts (OTF) mis à jour vers Hudi 1.0.2, Iceberg 1.10.0 et Delta Lake 3.3.2

  • Version 3.0 du format Iceberg

  • Accès complet à la table Hudi (FTA) avec lecture et écriture

  • DDL/DML Opérations de contrôle d'accès à grain fin (FGAC) natif de Spark sur les tables Hive, Iceberg et Delta Lake enregistrées dans Lake Formation

  • Contexte d'audit pour les appels d'API Glue et Lake Formation dans le CloudTrail journal

  • Support pour Iceberg Materialized Views

AWS Glue 5,0
  • Spark 3.5.4

  • Python 3.11

  • Scala 2.12.18

Java 17

En plus des mises à jour du cadre, des optimisations et des mises à niveau sont intégrées à cette version d’ AWS Glue , telles que :

  • Assistance avec Amazon SageMaker Unified Studio

  • Assistance Amazon SageMaker Lakehouse

  • Open Table Formats (OTF) mis à jour vers Hudi 0.15.0, Iceberg 1.7.1 et Delta Lake 3.3.0

  • Contrôle précis des accès natif Spark utilisant Lake Formation.

  • Prise en charge d’autorisations d’accès Amazon S3

  • Prise en charge de requirements.txt pour installer des bibliothèques Python supplémentaires

  • Support du lignage des données sur Amazon DataZone

  • Prise en charge des compartiments de tableaux Amazon S3

  • AWS Glue Prise en charge de l'affichage multidialecte du catalogue de données

Limitations

Les limites de la AWS Glue version 5.0 sont les suivantes :

  • Le contrôle d'accès au niveau de la table GlueContext basé sur Glue Dynamic Frame/ avec AWS Lake Formation des autorisations prises en charge dans Glue 4.0 ou antérieur n'est pas pris en charge dans Glue 5.0. Utilisez le nouveau contrôle précis des accès (FGAC) natif Spark de Glue 5.0.

Pour plus d'informations sur la migration vers la AWS Glue version 5.0, consultezMigration de tâches AWS Glue pour Spark vers AWS Glue version 5.0.

AWS Glue 4,0 Versions de l'environnement Spark
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue La version 4.0 intègre un certain nombre d'optimisations et de mises à niveau, telles que : AWS Glue

  • De nombreuses mises à niveau des fonctionnalités Spark de Spark 3.1 vers Spark 3.3 :

    • Plusieurs améliorations de fonctionnalités lorsqu'il est associé à Pandas. Pour plus d'informations, consultez Nouveautés de Spark 3.3.

    • Optimisations supplémentaires développées sur Amazon EMR.

    • Mise à niveau vers le système de fichiers EMR (EMRFS) 2.53.

  • Migration de Log4j 2 à partir de Log4j 1.x

  • Plusieurs mises à jour de modules Python depuis AWS Glue version 3.0, comme une version de Boto mise à niveau.

  • Mise à niveau de plusieurs connecteurs, notamment le connecteur Amazon Redshift par défaut. Consultez Annexe C : Mises à niveau des connecteurs.

  • Mise à niveau de plusieurs pilotes JDBC. Consultez Annexe B : Mises à niveau du pilote JDBC.

  • Utilisation d'un nouveau connecteur Amazon Redshift et d'un nouveau pilote JDBC.

  • Prise en charge native des infrastructures de lac de données ouverts avec Apache Hudi, Delta Lake et Apache Iceberg.

  • Prise en charge native du plug-in Cloud Shuffle Storage basé sur Amazon S3 (un plug-in Apache Spark) permettant d'utiliser Amazon S3 pour la réorganisation et la capacité de stockage élastique.

Limitations

Voici les limites de AWS Glue  4.0 :

  • AWS Glue l'apprentissage automatique et les transformations des informations personnelles identifiables (PII) ne sont pas encore disponibles dans la AWS Glue version 4.0.

Pour plus d'informations sur la migration vers AWS Glue version 4.0, consultez Migration de tâches AWS Glue pour Spark vers AWS Glue version 4.0.

Versions de l'environnement Ray
  • Ray 2.4.0

    Python 3.9

N/A

Créez et exécutez des applications Python distribuées avec AWS Glue for Ray.

Limitations des tâches Ray dans la version 4.0 de AWS Glue

  • AWS Glue les sessions interactives pour Ray sont toujours disponibles en avant-première pour cette version.

  • AWS Glue pour Ray, l'intégration avec Amazon VPC n'est pas disponible actuellement. Les ressources d'un VPC in ne AWS seront pas accessibles sans itinéraire public. Pour plus d'informations sur l'utilisation AWS Glue avec Amazon VPC, consultez. Configuration de points de terminaison d’un VPC d’interface (AWS PrivateLink) pour AWS Glue (AWS PrivateLink)

  • AWS Glue for Ray est disponible dans l'est des États-Unis (Virginie du Nord), dans l'est des États-Unis (Ohio), dans l'ouest des États-Unis (Oregon), en Asie-Pacifique (Tokyo) et en Europe (Irlande).

AWS Glue 3,0
  • Spark 3.1.1

  • Python 3.7

Java 8

En plus de la mise à niveau du moteur Spark vers 3.0, des optimisations et des mises à niveau sont intégrées à cette version de AWS Glue , telles que :

  • Construit la bibliothèque AWS Glue ETL par rapport à Spark 3.0, qui est une version majeure de Spark.

  • Les tâches de streaming sont prises en charge sur AWS Glue  3.0.

  • Inclut de nouvelles optimisations d'exécution de AWS Glue Spark en termes de performances et de fiabilité :

    • Traitement plus rapide des colonnes en mémoire basé sur Apache Arrow pour la lecture des données CSV.

    • Exécution basée sur SIMD pour les lectures vectorisées avec des données CSV.

    • La mise à niveau Spark inclut également des optimisations supplémentaires développées sur Amazon EMR.

    • EMRFS mis à niveau de la version 2.38 à 2.46 offrant de nouvelles fonctionnalités et des corrections de bogues pour l'accès à Amazon S3.

  • Plusieurs dépendances requises pour la nouvelle version de Spark ont été mises à niveau.

  • Pilotes JDBC mis à niveau pour nos sources de données prises en charge en mode natif.

Limitations

Voici les limites de AWS Glue  3.0 :

  • AWS Glue les transformations du machine learning ne sont pas encore disponibles dans la AWS Glue version 3.0.

  • Certains connecteurs Spark personnalisés ne fonctionnent pas avec AWS Glue  3.0 s'ils dépendent de Spark 2.4 et ne sont pas compatibles avec Spark 3.1.

AWS Glue 2.0 (fin de vie le 1er avril 2026)
  • Spark 2.4.3

  • Python 3.7

N/A

Outre les fonctionnalités fournies dans la AWS Glue version 1.0, AWS Glue la version 2.0 fournit également :

  • Une infrastructure améliorée pour exécuter des tâches ETL Apache Spark AWS Glue avec des temps de démarrage réduits.

  • Désormais, la journalisation par défaut est en temps réel, avec des flux séparés pour les pilotes et les exécuteurs, ainsi que des sorties et des erreurs.

  • Prise en charge de la spécification de modules Python supplémentaires ou de versions différentes au niveau de la tâche.

Note

AWS Glue la version 2.0 diffère de AWS Glue la version 1.0 pour certaines dépendances et versions en raison de modifications architecturales sous-jacentes. Validez vos tâches AWS Glue avant de migrer vers les versions AWS Glue majeures.

AWS Glue 1,0 (fin de vie le 1er avril 2026)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/A

Vous pouvez gérer les signets de tâche pour les formats Parquet et ORC dans les tâches ETL AWS Glue (avec AWS Glue version 1.0). Auparavant, vous ne pouviez mettre en signet que les formats source courants d'Amazon S3 tels que JSON, CSV, Apache Avro et XML dans les tâches AWS Glue ETL.

Lorsque vous définissez les options de format pour les entrées et sorties ETL, vous pouvez spécifier d'utiliser le reader/writer format Apache Avro 1.8 pour prendre en charge la lecture et l'écriture du type logique Avro (à l'aide de la AWS Glue version 1.0). Auparavant, seul le reader/writer format Avro version 1.7 était pris en charge.

Le type de connexion DynamoDB prend en charge une option d'écriture (à l'aide de AWS Glue version 1.0).

Limitations

Voici les limites de AWS Glue  1.0 :

  • AWS Glue les versions 0.9 et 1.0 ne seront pas disponibles en Asie-Pacifique (Jakarta) (ap-southeast-3), au Moyen-Orient (Émirats arabes unis) (me-central-1) ou dans d'autres nouvelles régions à l'avenir.

AWS Glue 0,9 (fin de vie le 1er avril 2026)
  • Spark 2.2.1

  • Python 2.7

N/A

Tâches créées sans spécifier de AWS Glue version par défaut, AWS Glue 0,9.

Limitations

Voici les limites de AWS Glue  0.9 :

  • AWS Glue les versions 0.9 et 1.0 ne seront pas disponibles en Asie-Pacifique (Jakarta) (ap-southeast-3), au Moyen-Orient (Émirats arabes unis) (me-central-1) ou dans d'autres nouvelles régions à l'avenir.

Note

Les versions de Glue suivantes sont compatibles avec les versions suivantes de PythonShell :

  • PythonShell La version 3.6 est prise en charge dans la version 1.0 de Glue.

  • PythonShell La version 3.9 est prise en charge dans la version 3.0 de Glue.

De plus, les points de terminaison de développement ne sont pris en charge que dans les versions 1.0 et 0.9 de Glue.