Starten einer Spark-Anwendung mithilfe der Amazon-Redshift-Integration für Apache Spark - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Starten einer Spark-Anwendung mithilfe der Amazon-Redshift-Integration für Apache Spark

Für die Amazon-EMR-Versionen 6.4 bis 6.9 müssen Sie die Option --jars oder --packages verwenden, um anzugeben, welche der folgenden JAR-Dateien Sie verwenden möchten. Die --jars-Option gibt Abhängigkeiten an, die lokal, in HDFS oder unter Verwendung von HTTP/S gespeichert sind. Weitere von der --jars-Option unterstützte Dateispeicherorte finden Sie unter Erweitertes Abhängigkeitsmanagement in der Spark-Dokumentation. Die --packages-Option spezifiziert Abhängigkeiten, die im öffentlichen Maven-Repository gespeichert sind.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

Amazon-EMR-Versionen 6.10.0 und höher erfordern die minimal-json.jar-Abhängigkeit nicht und installieren die anderen Abhängigkeiten standardmäßig automatisch in jedem Cluster. Die folgenden Beispiele zeigen, wie Sie eine Spark-Anwendung mit der Amazon-Redshift-Integration für Apache Spark starten.

Amazon EMR 6.10.0 +

Das folgende Beispiel zeigt, wie eine Spark-Anwendung mit dem spark-redshift-Konnektor mit Amazon-EMR-Versionen 6.10 und höher gestartet wird.

spark-submit my_script.py
Amazon EMR 6.4.0 - 6.9.x

Um eine Spark-Anwendung mit dem spark-redshift-Konnektor auf den Amazon-EMR-Versionen 6.4 bis 6.9 zu starten, müssen Sie die Option --jars oder --packages verwenden, wie das folgende Beispiel zeigt. Beachten Sie, dass die mit der --jars-Option aufgeführten Pfade die Standardpfade für die JAR-Dateien sind.

spark-submit \ --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \ my_script.py