使用最新 AWS Glue 版本 -

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用最新 AWS Glue 版本

我们建议使用最新 AWS Glue 版本。各版本都内置了多项优化和升级,可以自动提升作业性能。例如, AWS Glue 4.0 提供了以下新功能:

  • 全新优化的 Apache Spark 3.0 运行时 — AWS Glue 4.0 在 Apache Spark 3.3.0 运行时的基础上构建,为开源 Spark 带来了与开源 Spark 相当的性能改进。Spark 3.3.0 运行时基于 Spark 2.x 的多项创新构建。

  • 增强的 Amazon Redshift 连接器: AWS Glue 4.0 及更高版本提供 Apache Spark 的 Amazon Redshift 集成。该集成基于现有开源连接器构建,并增强了其性能和安全性。该集成可帮助应用程序以最快 10 倍的速度执行。有关更多信息,请参阅关于 Amazon Redshift integration with Apache Spark 的博客文章。

  • 基于 SIMD 的执行,用于使用 CSV 和 JSON 数据的矢量化读取 — AWS Glue 3.0 及更高版本添加了优化的读取器,与基于行的读取器相比,可以显著提高整体作业性能。有关 CSV 数据的更多信息,请参阅使用向量化 SIMD CSV 读取器优化读取性能。有关 JSON 数据的更多信息,请参阅将矢量化 SIMD JSON 读取器与 Apache Arrow 列式格式结合使用

每个 AWS Glue 版本都将包括此类升级,包括连接器、驱动程序和库更新。有关更多信息,请参阅AWS Glue 版本将 AWS Glue 任务迁移到 AWS Glue 版本 4.0