Usar a versão mais recente do AWS Glue -

Usar a versão mais recente do AWS Glue

Recomendamos usar a versão mais recente do AWS Glue. Há várias otimizações e atualizações incorporadas em cada versão que podem melhorar automaticamente a performance do trabalho. Por exemplo, O AWS Glue 4.0 fornece os seguintes novos recursos:

  • Novo runtime otimizado do Apache Spark 3.3.0: o AWS Glue 4.0 é baseado no runtime do Apache Spark 3.3.0, trazendo melhorias de performance comparáveis às do Spark de código aberto. O runtime do Spark 3.3.0 é baseado em muitas das inovações do Spark 2.x.

  • Conector aprimorado do Amazon Redshift: o AWS Glue 4.0 e versões posteriores oferecem integração do Amazon Redshift para Apache Spark. A integração se baseia em um conector de código aberto existente e o aprimora em termos de performance e segurança. A integração ajuda as aplicações a terem uma performance até dez vezes mais rápida. Para obter mais informações, consulte a publicação do blog Amazon Redshift integration with Apache Spark.

  • Execução baseada em SIMD para leituras vetorizadas com dados CSV e JSON: o AWS Glue versão 3.0 e versões posteriores adicionam leitores otimizados que podem acelerar significativamente a performance geral do trabalho em comparação com leitores baseados em linhas. Para obter mais informações sobre dados CSV, consulte Otimizar o desempenho de leitura com o leitor de SIMD vetorizado para CSV. Para obter mais informações sobre dados JSON, consulte Usar o leitor vetorizado SIMD para JSON com formato colunar Apache Arrow.

Cada versão do AWS Glue incluirá atualizações desse tipo, entre muitas outras, incluindo atualizações de conectores, drivers e bibliotecas. Para obter mais informações, consulte as Versões do AWS Glue e Migrar trabalhos do AWS Glue para o AWS Glue versão 4.0.