Inicialização de uma aplicação do Spark com a integração do Amazon Redshift para Apache Spark - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Inicialização de uma aplicação do Spark com a integração do Amazon Redshift para Apache Spark

Para usar a integração com o EMR Serverless 6.9.0, transmita as dependências necessárias do Spark-Redshift com sua tarefa do Spark. Use --jars para incluir as bibliotecas relacionadas ao conector do Redshift. Para acessar outros locais de arquivos compatíveis com a --jars opção, consulte a seção Gerenciamento avançado de dependências da documentação do Apache Spark.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

As versões 6.10.0 e superiores do Amazon EMR não exigem a dependência minimal-json.jar e, por padrão, instalam automaticamente as outras dependências em cada cluster. Os exemplos a seguir demonstram como iniciar um aplicativo Spark com a integração do Amazon Redshift para o Apache Spark.

Amazon EMR 6.10.0 +

Inicie um trabalho do Spark no Amazon EMR Sem Servidor com a integração do Amazon Redshift para Apache Spark na versão 6.10.0 e posteriores do Amazon EMR Sem Servidor.

spark-submit my_script.py
Amazon EMR 6.9.0

Para executar um trabalho do Spark no Amazon EMR Sem Servidor com a integração do Amazon Redshift para Apache Spark no EMR Sem Servidor versão 6.9.0, use a opção --jars como mostrado no exemplo a seguir. Observe que os caminhos listados com a opção --jars são os caminhos padrão para os arquivos JAR.

--jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar, /usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar
spark-submit \ --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \ my_script.py