AWS Glue の最新バージョンを使用する -

AWS Glue の最新バージョンを使用する

AWS Glue の最新バージョンを使用することをお勧めします。各バージョンには、ジョブのパフォーマンスを自動的に向上させる可能性がある最適化とアップグレードが組み込まれています。例えば、AWS Glue 4.0 には次の新機能があります。

  • 新たに最適化された Apache Spark 3.3.0 ランタイム – AWS Glue 4.0 は Apache Spark 3.3.0 ランタイムを基盤として構築されており、オープンソースの Spark に匹敵するパフォーマンスの向上をもたらします。Spark 3.3.0 ランタイムは、Spark 2.x の多くのイノベーションを継承しています。

  • 拡張された Amazon Redshift コネクタ – AWS Glue 4.0 以降のバージョンでは、Apache Spark と Amazon Redshift を統合できます。この統合は既存のオープンソースコネクタを基盤としており、パフォーマンスとセキュリティが強化されています。この統合により、アプリケーションのパフォーマンスが最大 10 倍向上します。詳細については、「Amazon Redshift integration with Apache Spark」に関するブログ記事を参照してください。

  • CSV および JSON データによりベクトル化された読み取りに対する SIMD ベースの実行 – AWS Glue バージョン 3.0 以降では、行ベースのリーダーと比較して、全体的なジョブパフォーマンスを大幅に高速化できる最適化されたリーダーが追加されています。CSV データの詳細については、「ベクトル化された SIMD CSV リーダーで読み取りパフォーマンスを最適化する」を参照してください。JSON データの詳細については、「Apache Arrow 列指向形式によりベクトル化された SIMD JSON リーダーの使用」を参照してください。

各 AWS Glue バージョンには、このようなアップグレードに加えて、コネクタ、ドライバー、ライブラリの更新などが含まれます。詳細については、「AWS Glue バージョン」および「Spark ジョブの AWS Glue の AWS Glue バージョン 4.0 への移行」を参照してください。