As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Inicialização de uma aplicação do Spark usando a integração do Amazon Redshift para Apache Spark
Para usar a integração, você deve transferir as dependências obrigatórias do Redshift para Spark com o trabalho do Spark. Você deve usar --jars para incluir as bibliotecas relacionadas ao conector do Redshift. Para visualizar outros locais de arquivo com suporte pela opção --jars, consulte a seção Advanced Dependency Management
-
spark-redshift.jar -
spark-avro.jar -
RedshiftJDBC.jar -
minimal-json.jar
Para iniciar uma aplicação do Spark com a integração do Amazon Redshift para Apache Spark na versão 6.9.0 ou em versões posteriores do Amazon EMR no EKS, use o comando de exemplo a seguir. Observe que os caminhos listados com a opção --conf spark.jars são os caminhos padrão para os arquivos JAR.
aws emr-containers start-job-run \ --virtual-cluster-idcluster_id\ --execution-role-arnarn\ --release-labelemr-6.9.0-latest\ --job-driver '{ "sparkSubmitJobDriver": { "entryPoint": "s3://script_path", "sparkSubmitParameters": "--conf spark.kubernetes.file.upload.path=s3://upload_path--conf spark.jars= /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar, /usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar" } }'