Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Modification de scripts Spark dans la consoleAWS Glue
Un script contient le code qui extrait les données des sources, les transforme et les charge dans des cibles. AWS Glue exécute un script lorsqu'il démarre une tâche.
Les scripts ETL AWS Glue peuvent être codés en Python ou Scala. Les scripts Python utilisent un langage qui est une extension du dialecte PySpark Python pour les tâches d'extraction, de transformation et de chargement (ETL). Le script contient des structures étendues pour gérer les transformations ETL. Lorsque vous générez automatiquement la logique de code source pour votre tâche, un script est créé. Vous pouvez modifier ce script ou fournir votre propre script personnalisé pour effectuer votre travail ETL.
Pour plus d'informations sur la définition et la modification de scripts dans AWS Glue, consultez AWS Glue guide de programmation.
Bibliothèques ou fichiers supplémentaires
Si votre script nécessite des bibliothèques ou des fichiers supplémentaires, vous pouvez les spécifier comme suit :
- Chemin de la bibliothèque Python
-
Chemins Amazon Simple Storage Service (Amazon S3) séparés par des virgules vers les bibliothèques Python requises par le script.
Note
Seules les bibliothèques Python pures peuvent être utilisées. Les bibliothèques reposant sur des extensions C, par exemple la bibliothèque d'analyse des données Python pandas, ne sont pas encore prises en charge.
- Chemin des fichiers .jar dépendants
-
Chemins Amazon S3 séparés par des virgules vers les fichiers JAR requis par le script.
Note
À l'heure actuelle, seules les bibliothèques pures Java ou Scala (2.11) peuvent être utilisées.
- Chemin de fichiers référencés
-
Chemins Amazon S3 séparés par des virgules vers les fichiers supplémentaires (par exemple, des fichiers de configuration) requis par le script.