데이터 품질 검증 활성화 - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 품질 검증 활성화

프롬프트에 소스 및 대상 클러스터 IDs 모두 제공하여 데이터 품질 검사를 활성화할 수 있습니다. 시스템은 소스 클러스터에서 기존 애플리케이션을 실행하여 비교를 위해 기준 메타데이터를 수집합니다.

참고: 데이터 품질에 대해서는 Spark 쓰기 작업만 추적할 수 있습니다.

Upgrade my pyspark application <local-path>/pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster <source-cluster-id> for source version run and <target-cluster-id> for target version run. Use s3 path s3://<please fill in your staging bucket path> to store updated application artifacts and s3://<please fill in your staging bucket path>/metadata for storing metadata. Enable data quality checks.

데이터 품질 워크플로 차이점

워크플로는 표준 업그레이드 프로세스와 동일한 단계를 따르며 위의 순서로 이러한 추가 단계를 수행합니다.

  • [3단계 후: 계획 검토 및 사용자 지정]

    • 현재 구성으로 빌드: 소스 클러스터 제출을 위한 현재 구성으로 애플리케이션을 빌드합니다.

    • 소스 EMR 클러스터에서 검증: 소스 Spark 버전에서 원래 애플리케이션을 실행하고 기준 비교를 위해 출력 메타데이터를 수집합니다.

  • [7단계: 업그레이드 요약 이후] 데이터 품질 요약: 버전과 분석 간의 데이터 품질 비교 보고서.

데이터 품질 불일치 기능에는 현재 다음이 포함됩니다.

  • 스키마 검사: 열 구조의 변경 사항, 즉 누락되거나 새로 추가된 열, 데이터 형식 차이 및 null 가능성 변경을 감지합니다.

  • 값 확인(숫자 및 문자열 열만 해당)

    • 최소, 최대 및 평균(숫자 열의 평균만 해당)을 비교합니다.

    • 문자열의 경우 최소 및 최대는 사전 순서를 기반으로 합니다.

  • 집계 통계 검사: 소스 출력과 대상 출력 간의 총 행 수를 비교합니다.

데이터 품질 검증: 범위 및 제한 사항

데이터 품질 검증은 Spark 버전 >= 3.0에서 spark-submit 명령을 사용하여 EMR-EC2 단계를 지원하며 EMR 클러스터는 StepConcurrencyLevel > 1을 가질 수 없습니다. 데이터 품질 검증은 Spark 쿼리 계획의 데이터 싱크 노드(데이터 소스/트랜스포밍의 메타데이터는 캡처되지 않음)에서 통계를 평가하고 파일 쓰기, 데이터베이스 삽입, 테이블 생성 및 다양한 데이터 소스 출력을 포함한 일반적인 Spark 쓰기 작업을 다룹니다.