Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisation de Scala pour programmer les scripts ETL AWS Glue
Vous pouvez générer automatiquement un programme ETL Scala à l'aide de la console AWS Glue et le modifier si nécessaire avant de l'affecter à une tâche. Vous pouvez également écrire votre propre programme à partir de zéro. Pour plus d'informations, consultez Configuration des propriétés de tâches Spark dans AWS Glue. AWS Glue compile ensuite votre programme Scala sur le serveur avant d'exécuter la tâche associée.
Pour vous assurer que votre programme se compile sans erreurs et s'exécute comme escompté, il est important de le charger sur un point de terminaison de développement dans un bloc-notes REPL (Read-Eval-Print Loop) ou dans un bloc-notes Jupyter et de le tester avant son exécution dans une tâche. Étant donné que le processus de compilation intervient sur le serveur, vous n'aurez pas une bonne visibilité sur les éventuels problèmes qui s'y produisent.
Test d'un programme ETL Scala dans un bloc-notes Jupyter sur un point de terminaison de développement
Pour tester un programme Scala sur un point de terminaison de développement AWS Glue, définissez le point de terminaison de développement comme décrit dans Ajout d'un point de terminaison de développement.
Ensuite, connectez-le à un bloc-notes Jupyter s'exécutant localement sur votre machine ou à distance sur un serveur de bloc-notes Amazon EC2. Pour installer une version locale d'un bloc-notes Jupyter, suivez les instructions fournies dans Didacticiel : Bloc-notes Jupyter dans JupyterLab.
La seule différence entre l'exécution du code Scala et celle du code PySpark sur votre Notebook est que vous devez démarrer chaque paragraphe sur le Notebook avec :
%spark
Cela empêche le serveur Notebook de passer par défaut à la version PySpark de l'interpréteur Spark.
Test d'un programme ETL Scala dans un REPL Scala
Vous pouvez tester un programme Scala sur un point de terminaison de développement à l'aide d'un REPL Scala AWS Glue. Suivez les instructions de Didacticiel : Utiliser un bloc-notes SageMaker AI, à la différence que, dans la commande SSH-to-REPL, remplacez -t gluepyspark par -t glue-spark-shell. Cela appelle la fonction REPL Scala AWS Glue.
Pour fermer la fonction REPL lorsque vous avez terminé, tapez sys.exit.