Meluncurkan aplikasi Spark menggunakan integrasi Amazon Redshift untuk Apache Spark - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Meluncurkan aplikasi Spark menggunakan integrasi Amazon Redshift untuk Apache Spark

Untuk menggunakan integrasi, Anda harus meneruskan dependensi Spark Redshift yang diperlukan dengan pekerjaan Spark Anda. Anda harus menggunakan --jars untuk menyertakan pustaka terkait konektor Redshift. Untuk melihat lokasi file lain yang didukung oleh --jars opsi, lihat bagian Advanced Dependency Management dari dokumentasi Apache Spark.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

Untuk meluncurkan aplikasi Spark dengan integrasi Amazon Redshift untuk Apache Spark di Amazon EMR pada rilis EKS 6.9.0 atau yang lebih baru, gunakan perintah contoh berikut. Perhatikan bahwa jalur yang tercantum dengan --conf spark.jars opsi adalah jalur default untuk file JAR.

aws emr-containers start-job-run \ --virtual-cluster-id cluster_id \ --execution-role-arn arn \ --release-label emr-6.9.0-latest\ --job-driver '{ "sparkSubmitJobDriver": { "entryPoint": "s3://script_path", "sparkSubmitParameters": "--conf spark.kubernetes.file.upload.path=s3://upload_path --conf spark.jars= /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar, /usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar" } }'