기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
중요 기능 및 개념
로깅 및 모니터링
AWS Glue 에는 여러 로깅 및 모니터링 옵션이 있습니다. 기본적으로는 Amazon CloudWatch의 로그 그룹에 aws-glue 로그를 AWS Glue 전송합니다. 이러한 로그에는 시작 및 종료 시간, 구성 설정, 발생했을 수 있는 모든 오류 또는 경고와 같은 정보가 포함됩니다.
또한 AWS Glue Spark ETL 작업은 고급 모니터링을 위해 활성화해야 하는 다음 옵션을 제공합니다.
-
작업 지표는 30초마다 CloudWatch의 AWS Glue 네임스페이스에 작업별 지표를 보고합니다. 처리된 레코드, 총 입력/출력 데이터 크기, 런타임과 같은 작업별 지표는 작업 성능에 대한 통찰력을 제공합니다. 이를 통해 병목 현상이나 구성을 최적화할 기회를 파악하는 데 도움을 얻을 수 있습니다.
-
연속 로깅은 실시간 Apache Spark 작업 로그를 CloudWatch의
/aws-glue/jobs/logs-v2로그 그룹으로 스트리밍합니다. 실시간 로그를 사용하면 AWS Glue 작업이 실행되는 동안 동적으로 모니터링할 수 있습니다. -
Spark UI는 각 단계의 이벤트 타임라인, 방향성 비순환 그래프, 작업 환경 변수 등 Spark 작업에 대한 정보를 볼 수 있는 Spark 기록 서버 웹 인터페이스를 제공합니다. 지속된 Spark UI 이벤트 로그는 Amazon S3에 저장되며, 실시간으로 또는 작업이 완료된 후에 사용할 수 있습니다.
-
작업 실행 통찰력은 일반적인 Spark 예외를 수신하고, 근본 원인 분석을 수행하고, 문제 해결을 위한 권장 조치를 제공함으로써 작업 디버깅 및 최적화를 단순화합니다. 이 통찰력은 CloudWatch에 저장됩니다.
자동화
AWS Glue 는 ETL 작업을 자동화하는 두 가지 주요 방법인 트리거와 워크플로를 제공합니다.
AWS Glue 트리거
실행되면 AWS Glue 트리거가 지정된 작업과 크롤러를 시작합니다. 트리거는 온디맨드로, 사전 정의된 일정에 따라, 또는 특정 이벤트를 기반으로 트리거될 수 있습니다. 트리거를 사용하여 종속 작업과 크롤러의 체인을 설계할 수 있습니다. 자세한 내용은 AWS Glue 트리거를 참조하세요.
AWS Glue 워크플로
더 복잡한 워크로드의 경우 AWS Glue 워크플로를 사용하여 방향성 비순환 그래프를 생성하고 별도의 AWS Glue 엔터티(트리거, 크롤러 및 작업) 간에 종속성을 구축할 수 있습니다. 또한 워크플로는 매개 변수를 공유하고, 진행 상황을 모니터링하고, 관련 엔터티 간에 문제를 해결할 수 있는 통합 인터페이스를 제공합니다.
AWS Glue 워크플로 내에 많은 관련 엔터티를 설정하면 점점 더 복잡해질 수 있습니다. 개발자는 복잡한 데이터 파이프라인을 데이터 과학자 및 비즈니스 분석가와 공유하기 위한 AWS Glue 블루프린트
AWS Glue 블루프린트 및 워크플로에 대한 자세한 내용은 에서 블루프린트 및 워크플로를 사용하여 복잡한 ETL 활동 수행을 참조하세요 AWS Glue.
다른 AWS 서비스와 AWS Glue 작업 오케스트레이션
더 많은 자동화 옵션을 위해는 AWS Lambda AWS Step Functions, 및 Amazon Managed Workflows for Apache Airflow(Amazon MWAA)와 같은 다른 AWS 서비스와 AWS Glue 통합합니다.
AWS Glue ETL 작업의 오케스트레이션 방법에 대한 자세한 내용은 의 오케스트레이션을 AWS Glue참조하세요.
작업 북마크
의 작업 북마크 AWS Glue 는 ETL 작업의 진행 상황을 추적하는 데 사용되므로 후속 작업 실행에서 데이터를 재처리할 필요가 없습니다. 작업 북마크가 활성화되면는 이미 처리된 데이터의 레코드를 AWS Glue 유지합니다. 그런 다음 실행할 때마다 데이터 소스의 새 데이터만 처리합니다. 자세한 내용은 작업 북마크를 사용하여 처리된 데이터 추적을 참조하세요.