

# AWS Glue Data Quality
<a name="glue-data-quality"></a>

AWS Glue Data Quality에서는 올바른 비즈니스 결정을 내릴 수 있도록 데이터의 품질을 측정하고 모니터링합니다. 오픈 소스 DeeQu 프레임워크를 기반으로 구축된 AWS Glue Data Quality는 관리형 서버리스 환경을 제공합니다. AWS Glue Data Quality는 데이터 품질 정의 언어(DQDL)를 사용합니다. 이 언어는 데이터 품질에 대한 규칙을 정의하는 데 사용되는 도메인 특정 언어입니다. DQDL 및 지원되는 규칙 유형에 대한 자세한 내용은 [데이터 품질 정의 언어(DQDL) 참조](dqdl.md) 섹션을 참조하세요.

추가 제품 세부 정보 및 요금은 [AWS Glue Data Quality](https://aws.amazon.com/glue/features/data-quality)의 서비스 페이지를 참조하세요.

## 이점 및 주요 특징
<a name="glue-data-quality-key-features"></a>

 AWS Glue Data Quality의 이점과 주요 특성은 다음과 같습니다.
+  **서버리스** - 설치, 패치 또는 유지 관리가 필요하지 않습니다.
+  **빠른 시작** - AWS Glue Data Quality는 데이터를 빠르게 분석하고 사용자를 위해 데이터 품질 규칙을 생성합니다. '데이터 품질 규칙 생성 → 권장 규칙'을 두 번만 클릭하여 시작할 수 있습니다.
+  **데이터 품질 문제 탐지** – 기계 학습(ML)을 사용하여 이상과 탐지하기 어려운 데이터 품질 문제를 탐지합니다.
+  **규칙 사용자 지정** - 25개 이상의 기본 DQ 규칙부터 시작하여 특정 요구 사항에 맞는 규칙을 생성할 수 있습니다.
+  **품질 평가 및 신뢰할 수 있는 비즈니스 의사 결정 지원** - 규칙을 평가한 후에는 데이터 상태에 대한 개요를 제공하는 Data Quality 점수를 제공합니다. Data Quality 점수를 사용하여 신뢰할 수 있는 비즈니스 의사 결정을 지원합니다.
+  **잘못된 데이터를 정확하게 식별** - AWS Glue Data Quality를 사용하면 품질 평가 점수를 떨어뜨리는 해당 레코드를 정확히 식별할 수 있습니다. 데이터를 쉽게 식별하고 격리한 후 수정할 수 있습니다.
+  **사용한 만큼만 지불** - AWS Glue Data Quality를 사용하는 데 요구되는 연간 라이선스는 없습니다.
+  **종속성 없음** - AWS Glue Data Quality는 오픈 소스 DeeQu를 기반으로 구축되었므로 작성 중인 규칙을 오픈 언어에서 유지할 수 있습니다.
+  **데이터 품질 검사** - Data Catalog 및 AWS Glue ETL 파이프라인에서 데이터 품질 검사를 적용하여 저장 중인 데이터 및 전송 중인 데이터의 품질을 관리할 수 있습니다.
+  **ML 기반 데이터 품질 탐지** – 기계 학습(ML)을 사용하여 이상과 탐지하기 어려운 데이터 품질 문제를 탐지합니다.
+  **규칙을 표현할 수 있는 개방형 언어** - 데이터 품질 규칙이 일관되고 간단하게 작성되도록 보장합니다. 비즈니스 사용자는 자신이 이해할 수 있는 간단한 언어로 데이터 품질 규칙을 쉽게 표현할 수 있습니다. 엔지니어에게 이 언어는 코드를 생성하고, 일관된 버전 제어를 구현하고, 배포를 자동화할 수 있는 유연성을 제공합니다.

## 작동 방식
<a name="glue-data-quality-how-it-works"></a>

AWS Glue Data Quality에는 AWS Glue Data Catalog 및 AWS Glue ETL 작업이라는 두 가지 진입점이 있습니다. 이 섹션에서는 각 진입점에서 지원하는 사용 사례 및 AWS Glue 기능에 대한 개요를 제공합니다.

### AWS Glue Data Catalog에 대한 데이터 품질
<a name="glue-data-quality-for-data-catalog"></a>

AWS Glue Data Quality는 AWS Glue Data Catalog에 저장된 객체를 평가합니다. 코드를 작성하지 않는 사용자도 이를 통해 데이터 품질 규칙을 쉽게 설정할 수 있습니다. 이러한 페르소나로, 데이터 관리자 및 비즈니스 분석가가 해당됩니다.



[![AWS Videos](http://img.youtube.com/vi/rK1NGQu4Sgg/0.jpg)](http://www.youtube.com/watch?v=rK1NGQu4Sgg)




다음과 같은 사용 사례에서 이 옵션을 선택할 수 있습니다.
+ AWS Glue Data Catalog에서 이미 카탈로그화한 데이터 세트에 대해 데이터 품질 작업을 수행하려고 합니다.
+ 데이터 거버넌스 관련 업무를 수행하면서 데이터 레이크의 데이터 품질 문제를 지속적으로 식별하거나 평가해야 합니다.

다음 인터페이스를 사용하여 데이터 카탈로그의 데이터 품질을 관리할 수 있습니다.
+ AWS Glue 관리 콘솔
+ AWS Glue API

AWS Glue Data Catalog에 대해 AWS Glue Data Quality를 시작하려면 [Data Catalog에서 AWS Glue Data Quality 시작하기](data-quality-getting-started.md) 섹션을 참조하세요.

### AWS Glue ETL 작업에 대한 데이터 품질
<a name="glue-data-quality-for-etl"></a>

AWS Glue ETL 작업에 대한 AWS Glue Data Quality를 통해 사전 예방적 데이터 품질 작업을 수행할 수 있습니다.** 사전 예방적 작업을 사용하면 데이터 세트를 데이터 레이크에 로드하기 전에 잘못된 데이터를 식별하고 필터링할 수 있습니다.**

[![AWS Videos](http://img.youtube.com/vi/DUd5s_CFtBM/0.jpg)](http://www.youtube.com/watch?v=DUd5s_CFtBM)


다음 사용 사례에서 ETL 작업에 대한 데이터 품질을 선택할 수 있습니다.
+ 데이터 품질 작업을 ETL 작업에 통합하려고 합니다.
+ ETL 스크립트에서 데이터 품질 작업을 정의하는 코드를 작성하려고 합니다.
+ 시각적 데이터 파이프라인에서 이동하는 데이터의 품질을 관리하려고 합니다.

다음 인터페이스를 사용하여 ETL 작업에 대한 데이터 품질을 관리할 수 있습니다.
+ AWS Glue Studio, AWS Glue Studio 노트북 및 AWS Glue 대화형 세션
+ ETL 스크립트 작성을 위한 AWS Glue 라이브러리
+ AWS Glue API

ETL 작업에 대한 Data Quality를 시작하려면 *AWS Glue Studio 사용 설명서*의 [자습서: Data Quality 시작하기](https://docs.aws.amazon.com/glue/latest/ug/gs-data-quality-chapter.html)를 참조하세요.

### 데이터 카탈로그에 대한 데이터 품질과 ETL 작업에 대한 데이터 품질 비교
<a name="glue-data-quality-compare"></a>

이 테이블에서는 AWS Glue Data Quality의 각 진입점에서 지원하는 기능에 대한 개요를 제공합니다.


****  

| 기능 | 데이터 카탈로그에 대한 데이터 품질 | ETL 작업에 대한 데이터 품질 | 
| --- | --- | --- | 
| 데이터 소스 | Data Catalog와 호환되는 Amazon S3, Amazon Redshift, JDBC 소스, 그리고 Apache Iceberg, Apache Hudi, Delta Lake 등의 트랜잭션 데이터 레이크 형식. AWS Lake Formation 관리형 OTF 형식도 지원되지만 몇 가지 제한 사항이 있습니다. AWS Glue Data Catalog에 카탈로그화된 Amazon Athena 뷰는 지원되지 않습니다. [지원되는 소스 유형](data-quality-getting-started.md#data-quality-get-started-supported-source-types) 섹션을 참조하세요. | AWS Glue에서 지원하는 모든 데이터 소스(사용자 지정 커넥터 및 서드 파티 커넥터 포함). | 
| Data Quality 규칙 권장 사항 | 지원됨 | 지원되지 않음 | 
| DQDL 규칙 작성 및 실행 | 지원됨 | 지원됨 | 
| Auto Scaling | 지원되지 않음 | 지원됨 | 
| AWS Glue Flex 지원 | 지원되지 않음 | 지원됨 | 
| 일정 예약 | Step Functions를 통해 데이터 품질 규칙을 평가할 때 지원됩니다. | Step Functions와 워크플로를 사용할 때 지원됩니다. | 
| 데이터 품질 검사에 실패한 레코드 식별 | 지원되지 않음 | 지원됨 | 
| Amazon EventBridge와 통합 | 지원됨 | 지원됨 | 
| AWS Cloudwatch와 통합 | 지원됨 | 지원됨 | 
| Amazon S3에 데이터 품질 결과 작성 | 지원됨 | 지원됨 | 
| 증분 데이터 품질 | 푸시다운 조건자를 통해 지원됨 | AWS Glue 북마크를 통해 지원됨 | 
| AWS CloudFormation 지원 | 지원됨 | 지원됨 | 
| ML 기반 이상 탐지 | 지원되지 않음 | 지원됨 | 
| 동적 규칙 | 지원되지 않음 | 지원됨 | 

## 고려 사항
<a name="glue-data-quality-considerations"></a>

AWS Glue Data Quality를 사용하기 전에 다음을 고려합니다.
+ 데이터 품질 규칙은 중첩된 데이터 소스 또는 목록 유형 데이터 소스를 평가할 수 없습니다. [중첩된 구조체 평면화](transforms-flatten.md)을(를) 참조하세요.

## 용어
<a name="data-quality-terms"></a>

다음 목록은 AWS Glue 데이터 품질 관련 용어를 정의합니다.

**DQDL(데이터 품질 정의 언어)**  
AWS Glue 데이터 품질 규칙을 작성하는 데 사용할 수 있는 도메인별 언어입니다.  
DQDL에 대한 자세한 내용은 [데이터 품질 정의 언어(DQDL) 참조](dqdl.md) 안내서를 참조하세요.

**데이터 품질 **  
데이터 세트가 특정 목적에 얼마나 적합한지를 설명합니다. AWS Glue 데이터 품질은 데이터 세트를 기준으로 규칙을 평가하여 데이터 품질을 측정합니다. 각 규칙은 데이터 최신성 또는 무결성과 같은 특정 특성을 확인합니다. 데이터 품질을 정량화하려면 **데이터 품질 점수를 사용할 수 있습니다.

**데이터 품질 점수**  
AWS Glue 데이터 품질로 규칙 세트를 평가할 때 통과한 데이터 품질 규칙(true 결과)의 비율입니다.

**규칙**  
데이터에 특정 특성이 있는지 검사하고 부울 값을 반환하는 DQDL 표현식입니다. 자세한 내용은 [규칙 구조](dqdl.md#dqdl-syntax-rule-structure) 섹션을 참조하세요.

**분석기**  
데이터 통계를 수집하는 DQDL 표현식입니다. 분석기는 시간이 지남에 따라 ML 알고리즘이 이상과 탐지하기 어려운 데이터 품질 문제를 탐지하는 데 사용할 수 있는 데이터 통계를 수집합니다.

**규칙 세트**  
일련의 데이터 품질 규칙으로 구성된 AWS Glue 리소스입니다. 규칙 세트는 AWS Glue Data Catalog의 테이블과 연결되어야 합니다. 규칙 세트를 저장할 때 AWS Glue에서는 Amazon 리소스 이름(ARN)을 규칙 세트에 할당합니다.

**데이터 품질 점수**  
AWS Glue 데이터 품질로 규칙 세트를 평가할 때 통과한 데이터 품질 규칙(true 결과)의 비율입니다.

**관찰**  
AWS Glue에서 시간이 지남에 따라 규칙과 분석기로부터 수집된 데이터 통계를 분석하여 생성되는 확인되지 않은 인사이트입니다.

## 한도
<a name="data-quality-limits"></a>

 AWS Glue Data Quality 서비스 한도: 
+  규칙 세트에는 2,000개의 규칙을 포함할 수 있습니다. 규칙 세트가 더 크면 여러 규칙 세트로 분할하는 것이 좋습니다.
+  규칙 세트의 크기는 65KB입니다. 규칙 세트가 더 크면 여러 규칙 세트로 분할하는 것이 좋습니다.
+  AWS Glue Data Quality는 규칙 또는 분석기를 생성할 때 통계를 수집합니다. 이러한 통계를 저장하는 데는 비용이 들지 않습니다. 단, 계정당 10만 개로 통계 수가 제한되며 이러한 통계는 최대 2년간 보관됩니다.

## AWS Glue Data Quality의 릴리즈 정보
<a name="data-quality-release-notes"></a>

이 주제에서는 AWS Glue Data Quality에 도입된 기능에 대해 설명합니다.

### 정식 출시: 새 기능
<a name="data-quality-release-notes-ga"></a>

AWS Glue Data Quality의 정식 출시를 통해 다음과 같은 새로운 기능을 사용할 수 있습니다.
+ 이제 데이터 품질 검사에 실패한 레코드를 식별하는 기능이 AWS Glue Studio에서 지원됩니다.
+ 두 데이터 세트 간 데이터의 참조 무결성 검증, 두 데이터 세트 간 데이터 비교, 데이터 형식 검사와 같은 새로운 데이터 품질 규칙 유형
+ AWS Glue Data Catalog의 사용자 경험 개선
+ Apache Iceberg, Apache Hudi 및 Delta Lake에 대한 지원
+ Amazon Redshift에 대한 지원
+ Amazon EventBridge를 통한 간소화된 알림
+ 규칙 세트 생성을 위한 AWS CloudFormation 지원
+ 성능 개선: 데이터 품질 평가 시 더 빠른 성능을 제공하기 위해 ETL 및 AWS Glue Studio의 캐싱 옵션

### 2023년 11월 27일(미리 보기)
<a name="data-quality-release-notes-preview"></a>
+  ML 기반 이상 탐지 기능은 이제 AWS Glue ETL 및 AWS Glue Studio에서 사용할 수 있습니다. 이를 통해 이제 이상과 탐지하기 어려운 데이터 품질 문제를 탐지할 수 있습니다.
+  [동적 규칙을 사용하면 동적 임곗값(예: `RowCount> avg(last(10))`)을 제공할 수 있습니다. ](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html#dqdl-dynamic-rules) 

### 2024년 3월 12일
<a name="data-quality-release-notes-mar12"></a>
+  DQDL 개선 사항 
  +  [ NULL, BLANKS, WHITESPACES\_ONLY와 같은 키워드에 대한 지원 ](dqdl.md#dqdl-keywords-null-empty-whitespaces_only) 
  +  [AWS Glue 데이터 품질에서 복합 규칙을 처리하는 방법을 지정하는 옵션 ](dqdl.md#dqdl-syntax-rule-composition) 
  +  [ ColumnValues 규칙 유형에서는 비교 중에 NULL 값이 전달되는 것을 허용하지 않음 ](dqdl.md#dqdl-keywords-null-empty-whitespaces_only) 
  +  [ DQDL의 NOT 연산자에 대한 지원 ](dqdl.md#dqdl-syntax-rule-expressions) 

### 2024년 6월 26일
<a name="data-quality-release-notes-jun26"></a>
+ DQDL 개선 사항
  + DQDL은 이제 [where 절](dqdl.md#dqdl-filtering-data-in-dqdl)을 지원하므로 DQ 규칙을 적용하기 전에 데이터를 필터링할 수 있습니다.

### 2024년 8월 7일
<a name="data-quality-release-notes-aug7"></a>
+ 이제 이상 탐지 기능과 동적 규칙을 정식 버전으로 사용할 수 있습니다.

### 2024년 11월 22일
<a name="data-quality-release-notes-nov22-2024"></a>
+  [ 복잡한 복합 규칙을 사용하여 중첩을 지원하는 더 복잡한 비즈니스 규칙을 작성할 수 있음 ](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html#dqdl-syntax-rule-composition) 
+  파일의 데이터 품질을 관리하기 위한 새로운 규칙 유형 
  +  [ FileFreshness ](https://docs.aws.amazon.com/glue/latest/dg/dqdl-rule-types-FileFreshness) 
  +  [ FileSize ](https://docs.aws.amazon.com/glue/latest/dg/dqdl-rule-types-FileSize) 
  +  [ FileUniqueness ](https://docs.aws.amazon.com/glue/latest/dg/dqdl-rule-types-FileUniqueness) 
  +  [ FileMatch ](https://docs.aws.amazon.com/glue/latest/dg/dqdl-rule-types-FileMatch) 
+ Visual ETL 작업의 기본 데이터 품질 검사

### 2024년 12월 6일
<a name="data-quality-release-notes-dec6-2024"></a>
+ 이제 AWS Glue Data Quality는 AWS Glue ETL 5.0에서 Amazon SageMaker AI LakeHouse 테이블과 AWS Lake Formation 관리형 Iceberg, Delta 및 HUDI 테이블을 지원합니다.

### 2025년 7월 7일
<a name="data-quality-release-notes-jul7-2025"></a>
+  이제 AWS Glue Data Quality는 AWS Glue Data Catalog에서 Amazon S3 Tables, RMS, Lakehouse 및 AWS Lake Formation 관리형 Iceberg 테이블을 지원합니다.

### 2025년 11월 21일
<a name="data-quality-release-notes-nov21-2025"></a>
+ AWS Glue Data Quality는 이제 향상된 보고를 위한 규칙 레이블 지정을 지원합니다. 특정 레이블로 결과를 쿼리하여 특정 범주 내에서 실패한 규칙을 식별하고, 팀 또는 도메인별로 규칙 결과를 계산하고, 다양한 이해관계자를 위한 집중 보고서를 생성하여 데이터 품질 결과를 보다 효과적으로 구성하고 분석할 수 있습니다. 자세한 내용은 [레이블](dqdl.md#dqdl-labels) 섹션을 참조하세요.
+ AWS Glue Data Quality가 이제 DQDL에서 상수를 지원하므로 상수 값을 정의하고 스크립트 전체에서 참조할 수 있습니다. 이는 큰 SQL 문으로 작업할 때 쿼리 크기 제한과 관련된 문제를 방지하는 데 도움이 됩니다. 자세한 내용은 [상수](dqdl.md#dqdl-constants) 섹션을 참조하세요.