Lancement d'une application Spark à l'aide de l'intégration Amazon Redshift pour Apache Spark - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Lancement d'une application Spark à l'aide de l'intégration Amazon Redshift pour Apache Spark

Pour les versions 6.4 à 6.9 d'Amazon EMR, vous devez utiliser l'option --jars ou --packages pour spécifier les fichiers JAR suivants que vous souhaitez utiliser. L'option --jars spécifie les dépendances stockées localement, dans HDFS ou à l'aide du protocole HTTP/S. Pour connaître les autres emplacements de fichiers pris en charge par l'option --jars, consultez la section Gestion avancée des dépendances dans la documentation de Spark. L'option --packages spécifie les dépendances stockées dans le référentiel public de Maven.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

Les versions 6.10.0 et supérieures d'Amazon EMR ne nécessitent pas la dépendance de minimal-json.jar et installent automatiquement les autres dépendances sur chaque cluster par défaut. Les exemples suivants montrent comment lancer une application Spark avec l'intégration Amazon Redshift pour Apache Spark.

Amazon EMR 6.10.0 +

L'exemple suivant montre comment lancer une application Spark avec le connecteur spark-redshift avec Amazon EMR versions 6.10 et supérieures.

spark-submit my_script.py
Amazon EMR 6.4.0 - 6.9.x

Pour lancer une application Spark avec le connecteur spark-redshift sur les versions 6.4 à 6.9 d'Amazon EMR, vous devez utiliser l'option --jars ou --packages, comme le montre l'exemple suivant. Notez que les chemins répertoriés avec l'option --jars sont les chemins par défaut des fichiers JAR.

spark-submit \ --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \ my_script.py