최신 AWS Glue 버전 사용
최신 AWS Glue 버전을 사용하는 것이 좋습니다. 작업 성능을 자동으로 개선할 수 있는 여러 최적화 및 업그레이드가 각 버전에 빌드되어 있습니다. 예를 들어 AWS Glue 4.0은 다음과 같은 새로운 기능을 제공합니다.
-
새로 최적화된 Apache Spark 3.3.0 런타임 - AWS Glue 4.0은 Apache Spark 3.3.0 런타임을 기반으로 빌드되어 오픈 소스 Spark에 유사한 성능 개선을 제공합니다. Spark 3.3.0 런타임은 Spark 2.x의 많은 혁신을 기반으로 빌드되었습니다.
-
향상된 Amazon Redshift 커넥터 - AWS Glue 4.0 이상 버전은 Apache Spark에 Amazon Redshift 통합을 제공합니다. 통합은 기존 오픈 소스 커넥터를 기반으로 빌드되며 성능과 보안을 위해 기능을 개선합니다. 통합을 통해 애플리케이션 성능이 최대 10배 빨라집니다. 자세한 내용은 Amazon Redshift integration with Apache Spark
에 대한 블로그 게시물을 참조하세요. -
CSV 및 JSON 데이터를 사용한 벡터화된 읽기에 대한 SIMD 기반 실행 - AWS Glue 버전 3.0 이상 버전은 행 기반 리더에 비해 전체 작업 성능을 크게 높일 수 있는 최적화된 리더를 추가합니다. CSV 데이터에 대한 자세한 내용은 Optimize read performance with vectorized SIMD CSV reader를 참조하세요. JSON 데이터에 대한 자세한 내용은 Using vectorized SIMD JSON reader with Apache Arrow columnar format을 참조하세요.
각 AWS Glue 버전에는 커넥터, 드라이버 및 라이브러리 업데이트를 포함하여 이러한 종류의 업그레이드가 포함됩니다. 자세한 내용은 AWS Glue 버전 및 AWS Glue 버전 4.0으로 AWS Glue 작업 마이그레이션을 참조하세요.