Inicialização de uma aplicação do Spark usando a integração do Amazon Redshift para Apache Spark

Para usar a integração, você deve transferir as dependências obrigatórias do Redshift para Spark com o trabalho do Spark. Você deve usar --jars para incluir as bibliotecas relacionadas ao conector do Redshift. Para visualizar outros locais de arquivo com suporte pela opção --jars, consulte a seção Advanced Dependency Management da documentação do Apache Spark.

spark-redshift.jar
spark-avro.jar
RedshiftJDBC.jar
minimal-json.jar

Para iniciar uma aplicação do Spark com a integração do Amazon Redshift para Apache Spark na versão 6.9.0 ou em versões posteriores do Amazon EMR no EKS, use o comando de exemplo a seguir. Observe que os caminhos listados com a opção --conf spark.jars são os caminhos padrão para os arquivos JAR.


aws emr-containers start-job-run \

--virtual-cluster-id cluster_id \
--execution-role-arn arn \
--release-label emr-6.9.0-latest\
--job-driver '{
    "sparkSubmitJobDriver": {
        "entryPoint": "s3://script_path", 
            "sparkSubmitParameters":
            "--conf spark.kubernetes.file.upload.path=s3://upload_path 
             --conf spark.jars=
                /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,
                /usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,
                /usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,
                /usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar"
                            }
            }'

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Uso do Spark no Redshift

Autenticação no Amazon Redshift