

 O Amazon Redshift não permitirá mais a criação de UDFs do Python a partir do Patch 198. As UDFs do Python existentes continuarão a funcionar normalmente até 30 de junho de 2026. Para ter mais informações, consulte a [publicação de blog ](https://aws.amazon.com/blogs/big-data/amazon-redshift-python-user-defined-functions-will-reach-end-of-support-after-june-30-2026/). 

# Integração do Amazon Redshift para o Apache Spark
<a name="spark-redshift-connector"></a>

 O [Apache Spark](https://aws.amazon.com/emr/features/spark/) é um modelo de programação e estrutura de processamento distribuído que ajuda você a realizar machine learning, processamento de fluxo ou análises de gráficos. Semelhante ao Apache Hadoop, o Spark é um sistema de processamento distribuído de código-fonte aberto comumente utilizado para workloads de big data. O Spark tem um mecanismo de execução otimizado de gráfico acíclico direcionado (DAG) e armazena ativamente os dados na memória. Isso pode aumentar a performance, especialmente para determinados algoritmos e consultas interativas. 

 Essa integração fornece um conector do Spark que você pode usar para criar aplicações do Apache Spark que leem e gravam dados no Amazon Redshift e no Amazon Redshift Serverless. Essas aplicações não comprometem a performance nem a consistência transacional dos dados. Essa integração é incluída automaticamente no [Amazon EMR](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/) e [AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/), portanto você pode executar imediatamente trabalhos do Apache Spark que acessam e carregam dados no Amazon Redshift como parte de seus pipelines de ingestão e transformação de dados. 

No momento, é possível usar as versões 3.3.x, 3.4.x, 3.5.x e 4.0.0 do Spark com essa integração.

 Essa integração fornece o seguinte: 
+  AWS Identity and Access ManagementAutenticação do (IAM). Para obter mais informações, consulte [Gerenciamento de identidade e acesso no Amazon Redshift](https://docs.aws.amazon.com/redshift/latest/mgmt/redshift-iam-authentication-access-control.html). 
+ Aplicação de predicados e consultas para melhorar a performance.
+  Tipo de dados do Amazon Redshift. 
+ Conectividade com o Amazon Redshift e o Amazon Redshift Serverless.

## Considerações e limitações ao usar o conector do Spark
<a name="spark-redshift-connector-considerations"></a>
+  O URI de tempdir aponta para uma localização do Amazon S3. Esse diretório temporário não é limpo automaticamente e pode incorrer custos adicionais. Recomendamos usar as [políticas de ciclo de vida do Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/object-lifecycle-mgmt.html) no *Guia do usuário do Amazon Simple Storage Service* para definir as regras de retenção para o bucket do Amazon S3. 
+  Por padrão, as cópias entre o Amazon S3 e o Redshift não funcionam se o bucket do S3 e o cluster do Redshift estiverem em regiões da AWS diferentes. Para usar regiões da AWS separadas, defina o parâmetro `tempdir_region` como a região do bucket do S3 usado para `tempdir`.
+ Gravações entre regiões entre o S3 e o Redshift ao gravar dados do Parquet usando o parâmetro `tempformat`.
+ Recomendamos usar a [criptografia no lado do servidor do Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/serv-side-encryption.html) para criptografar os buckets do Amazon S3 usados. 
+ Recomendamos [bloquear o acesso público aos buckets do Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-control-block-public-access.html). 
+  Recomendamos que o cluster do Amazon Redshift não esteja acessível ao público. 
+  Recomendamos ativar o [registro em log de auditoria do Amazon Redshift](https://docs.aws.amazon.com/redshift/latest/mgmt/db-auditing.html). 
+  Recomendamos ativar a [criptografia em repouso do Amazon Redshift](https://docs.aws.amazon.com/redshift/latest/mgmt/security-server-side-encryption.html). 
+  Recomendamos ativar SSL para a conexão JDBC do Spark no Amazon EMR ao Amazon Redshift. 
+ Recomendamos transmitir um perfil do IAM usando o parâmetro `aws_iam_role` para o parâmetro de autenticação do Amazon Redshift.