

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# AWS Glue 資料品質
<a name="glue-data-quality"></a>

AWS Glue Data Quality 可讓您測量和監控資料的品質，以便做出良好的商業決策。在開放原始碼 DeeQu 架構的基礎上， AWS Glue Data Quality 提供受管、無伺服器的體驗。 AWS Glue Data Quality 可與 Data Quality Definition Language (DQDL) 搭配使用，這是您用來定義資料品質規則的網域特定語言。若要進一步了解 DQDL 和支援的規則類型，請參閱 [資料品質定義語言 (DQDL) 參考](dqdl.md)。

如需了解產品詳細資訊和定價，請參閱 [AWS Glue Data Quality](https://aws.amazon.com/glue/features/data-quality) 的服務頁面。

## 優點和重要功能
<a name="glue-data-quality-key-features"></a>

 AWS Glue Data Quality 的優點和主要功能包括：
+  **無伺服器**：無需安裝、修補或維護。
+  **快速入門** – AWS Glue Data Quality 會快速分析您的資料，並為您建立資料品質規則。只要按兩下即可開始使用：「建立資料品質規則 → 建議規則」。
+  **偵測資料品質問題**：使用機器學習 (ML) 偵測異常和難以偵測的資料品質問題。
+  **即興創作您的規則**：提供超過 25 種立即可用的 DQ 規則，協助您輕鬆開始建立符合特定需求的規則。
+  **評估品質並做出自信的業務決策**：評估規則後，即可取得資料品質分數供您了解資料運作狀態。使用資料品質分數做出自信的業務決策。
+  **錯誤資料的零輸入** – AWS Glue Data Quality 可協助您識別導致品質分數下降的確切記錄。輕鬆識別、隔離並修復這些記錄。
+  **隨需付費** – 您不需要使用 AWS Glue Data Quality 的年度授權。
+  **無鎖定** – AWS Glue Data Quality 是以開放原始碼 DeeQu 為基礎，可讓您以開放語言保留所撰寫的規則。
+  **資料品質檢查**：您可以針對 Data Catalog 和 AWS Glue ETL 管道強制執行資料品質檢查，可讓您管理靜態和傳輸中的資料品質。
+  **以 ML 為基礎的資料品質偵測**：使用機器學習 (ML) 偵測異常和難以偵測的資料品質問題。
+  **開放語言來表達規則** – 確保資料品質規則的撰寫一致且簡單。商業使用者可以輕鬆地以他們可以理解的直接語言，來表達資料品質規則。對於工程師，此語言提供彈性來產生程式碼、實作一致的版本控制，以及自動化部署。

## 運作方式
<a name="glue-data-quality-how-it-works"></a>

 AWS Glue Data Quality 有兩個進入點： AWS Glue Data Catalog 和 AWS Glue ETL 任務。本節提供每個進入點支援的使用案例和 AWS Glue 功能的概觀。

### 的資料品質 AWS Glue Data Catalog
<a name="glue-data-quality-for-data-catalog"></a>

AWS Glue Data Quality 會評估存放在 AWS Glue Data Catalog 中的物件，提供非編碼器輕鬆設定資料品質規則的方式。這些人員角色包括資料管理員和業務分析師。



[![AWS Videos](http://img.youtube.com/vi/https://www.youtube.com/embed/rK1NGQu4Sgg/0.jpg)](http://www.youtube.com/watch?v=https://www.youtube.com/embed/rK1NGQu4Sgg)




您可以針對下列使用案例選擇此選項：
+ 您想要對已在 AWS Glue Data Catalog中分類的資料集執行資料品質任務。
+ 您致力於資料控管，且需要持續識別或評估資料湖中的資料品質問題。

您可以使用下列介面來管理資料目錄的資料品質：
+  AWS Glue 管理主控台
+ AWS Glue APIs

若要開始使用 的 AWS Glue Data Quality， AWS Glue Data Catalog 請參閱 [開始使用適用於 Data Catalog 的 AWS Glue Data Quality](data-quality-getting-started.md)。

### AWS Glue ETL 任務的資料品質
<a name="glue-data-quality-for-etl"></a>

AWS Glue AWS Glue ETL 任務的資料品質可讓您執行*主動*的資料品質任務。主動式任務可協助您在將資料集載入資料湖*之前*，識別並篩選出錯誤資料。

[![AWS Videos](http://img.youtube.com/vi/https://www.youtube.com/embed/DUd5s_CFtBM/0.jpg)](http://www.youtube.com/watch?v=https://www.youtube.com/embed/DUd5s_CFtBM)


您可以針對下列使用案例選擇適用於 ETL 任務的資料品質：
+ 您想要將資料品質任務納入 ETL 任務
+ 您想要撰寫在 ETL 指令碼中定義資料品質任務的程式碼
+ 您想要管理在視覺化資料管道中流動的資料品質

您可以使用下列介面來管理適用於 ETL 任務的資料品質：
+ AWS Glue Studio、 AWS Glue Studio 筆記本和 AWS Glue 互動式工作階段
+ AWS Glue 用於 ETL 指令碼的程式庫
+ AWS Glue APIs

若要開始使用適用於 ETL 任務的資料品質，請參閱《AWS Glue Studio 使用者指南》**中的[教學課程：開始使用 Data Quality](https://docs.aws.amazon.com/glue/latest/ug/gs-data-quality-chapter.html)。

### 比較資料目錄的資料品質與 ETL 任務的資料品質
<a name="glue-data-quality-compare"></a>

此表格提供 AWS Glue Data Quality 每個進入點支援的功能概觀。


****  

| 功能 | 適用於資料目錄的資料品質 | 適用於 ETL 任務的資料品質 | 
| --- | --- | --- | 
| 資料來源 | Amazon S3 Amazon Redshift、與 Data Catalog 相容的 JDBC 來源，以及交易資料湖格式，例如 Apache Iceberg、Apache Hudi 和 Delta Lake。 AWS Lake Formation 受管 OTF 格式也受到某些限制支援。不支援在 AWS Glue Data Catalog 中編製目錄的 Amazon Athena 檢視。請參閱 [支援的來源類型](data-quality-getting-started.md#data-quality-get-started-supported-source-types)。 | 支援的所有資料來源 AWS Glue，包括自訂連接器和第三方連接器。 | 
| 資料品質規則建議 | 支援 | 不支援 | 
| 撰寫並執行 DQDL 規則 | 支援 | 支援 | 
| 自動擴展 | 不支援 | 支援 | 
| AWS Glue Flex 支援 | 不支援 | 支援 | 
| 排程 | 評估資料品質規則和使用 Step Functions 時支援。 | 使用 Step Functions 和工作流程時支援。 | 
| 識別未通過資料品質檢查的記錄。 | 不支援 | 支援 | 
| 整合 Amazon Eventbridge | 支援 | 支援 | 
| 與 AWS Cloudwatch 整合 | 支援 | 支援 | 
| 將資料品質結果寫入 Amazon S3 | 支援 | 支援 | 
| 增量資料品質 | 透過下推述詞支援 | 透過 AWS Glue 書籤支援 | 
| AWS CloudFormation 支援 | 支援 | 支援 | 
| 以 ML 為基礎的異常偵測 | 不支援 | 支援 | 
| 動態規則 | 不支援 | 支援 | 

## 考量事項
<a name="glue-data-quality-considerations"></a>

在使用 AWS Glue Data Quality 之前，請考慮下列事項：
+ 資料品質規則無法評估巢狀或清單類型的資料來源。請參閱 [壓平合併巢狀結構](transforms-flatten.md)。

## 術語
<a name="data-quality-terms"></a>

下列清單定義了與 AWS Glue Data Quality 相關的術語。

**資料品質定義語言 (DQDL)**  
您可以用來撰寫 AWS Glue Data Quality 規則的網域特定語言。  
若要進一步了解 DQDL，請參閱 [資料品質定義語言 (DQDL) 參考](dqdl.md) 指南。

**資料品質 **  
描述資料集滿足其特定目的的程度。 AWS Glue Data Quality 會根據資料集評估規則，以測量資料品質。每個規則都會檢查特定特性，例如資料更新狀態或完整性。若要量化資料品質，您可以使用*資料品質分數*。

**資料品質分數**  
當您使用 Data Quality 評估規則集時，傳遞 （產生 true) AWS Glue 的資料品質規則百分比。

**規則**  
此即 DQDL 運算式，會檢查資料是否有特定特性並傳回布林值。如需詳細資訊，請參閱[規則結構](dqdl.md#dqdl-syntax-rule-structure)。

**analyzer**  
收集資料統計資料的 DQDL 表達式。收集資料統計資料的分析器，收集的資料可供 ML 演算法用來偵測異常以及一段時間內難以偵測的資料品質問題。

**規則集**  
包含一組資料品質規則 AWS Glue 的資源。規則集必須與 AWS Glue Data Catalog中的資料表建立關聯。儲存規則集時， AWS Glue 會向規則集指派 Amazon Resource Name (ARN)。

**資料品質分數**  
當您使用 AWS Glue Data Quality 評估規則集時，通過 (結果為 true) 的資料品質規則百分比。

**觀察**  
AWS Glue 透過分析一段時間內從規則和分析器收集的資料統計資料，而產生的未經證實的洞察。

## 限制
<a name="data-quality-limits"></a>

 AWS Glue Data Quality 服務限制：
+  您可以在規則集中擁有 2,000 個規則。如果您的規則集較大，建議您分區成多個規則集。
+  規則集的大小為 65 KB。如果您的規則集較大，建議您分區成多個規則集。
+  AWS Glue Data Quality 會在您建立規則或分析器時收集統計資料。儲存這些統計資料不會產生相關費用。但是，每個帳戶限制 10 萬個統計資料，這些統計資料最多會保留兩年。

## AWS Glue Data Quality 的版本備註
<a name="data-quality-release-notes"></a>

本主題說明 AWS Glue Data Quality 中介紹的功能。

### 正式推出：新功能
<a name="data-quality-release-notes-ga"></a>

Data AWS Glue Quality 正式推出下列新功能：
+ 現在支援識別哪些記錄資料品質檢查失敗的功能 AWS Glue Studio
+ 全新的資料品質規則類型，例如驗證兩個資料集之間的資料參照完整性、比較兩個資料集之間的資料，以及資料類型檢查
+ 改善 中的使用者體驗 AWS Glue Data Catalog
+ 支援 Apache Iceberg、Apache Hudi 和 Delta Lake
+ 支援 Amazon Redshift
+ 透過 Amazon EventBridge 簡化通知
+ AWS CloudFormation 支援建立規則集
+ 效能改善：在 ETL 中快取選項 AWS Glue Studio ，並在評估資料品質時提高效能

### 2023 年 11 月 27 日 (預覽)
<a name="data-quality-release-notes-preview"></a>
+  採用 ML 的異常偵測功能現在可在 AWS Glue ETL 和 AWS Glue Studio 中使用。您現在可以使用這個功能來偵測異常和難以偵測的資料品質問題 
+  [動態規則可讓您提供動態閾值 (例如：`RowCount> avg(last(10))`)](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html#dqdl-dynamic-rules) 

### 2024 年 3 月 12 日
<a name="data-quality-release-notes-mar12"></a>
+  DQDL 改進 
  +  [支援 NULL、BLANKS、WHITESPACES\$1ONLY 等關鍵字](dqdl.md#dqdl-keywords-null-empty-whitespaces_only) 
  +  [ 用於指定 AWS Glue Data Quality 必須如何處理複合規則的選項 ](dqdl.md#dqdl-syntax-rule-composition) 
  +  [ ColumnValues 規則類型不會允許在比較期間傳遞 NULL 值](dqdl.md#dqdl-keywords-null-empty-whitespaces_only) 
  +  [支援 DQDL 中的 NOT 運算子](dqdl.md#dqdl-syntax-rule-expressions) 

### 2024 年 6 月 26 日
<a name="data-quality-release-notes-jun26"></a>
+ DQDL 改進
  + DQDL 現在支援 [where 子句](dqdl.md#dqdl-filtering-data-in-dqdl)，讓您可以在套用 DQ 規則之前篩選資料

### 2024 年 8 月 7 日
<a name="data-quality-release-notes-aug7"></a>
+ 異常偵測和動態規則現已正式推出

### 2024 年 11 月 22 日
<a name="data-quality-release-notes-nov22-2024"></a>
+  [複雜的複合規則可讓您使用巢狀支援撰寫更複雜的業務規則](https://docs.aws.amazon.com/glue/latest/dg/dqdl.html#dqdl-syntax-rule-composition) 
+  用於管理檔案資料品質的新規則類型 
  +  [ FileFreshness ](https://docs.aws.amazon.com/glue/latest/dg/dqdl-rule-types-FileFreshness) 
  +  [ FileSize ](https://docs.aws.amazon.com/glue/latest/dg/dqdl-rule-types-FileSize) 
  +  [ FileUniqueness ](https://docs.aws.amazon.com/glue/latest/dg/dqdl-rule-types-FileUniqueness) 
  +  [ FileMatch ](https://docs.aws.amazon.com/glue/latest/dg/dqdl-rule-types-FileMatch) 
+ 視覺化的 ETL 任務中的預設資料品質檢查

### 2024 年 12 月 6 日
<a name="data-quality-release-notes-dec6-2024"></a>
+ AWS Glue Data Quality 現在支援 Amazon SageMaker AI LakeHouse 資料表和 AWS Glue ETL 5.0 中的 AWS Lake Formation 受管 Iceberg、Delta 和 HUDI 資料表。

### 2025 年 7 月 7 日
<a name="data-quality-release-notes-jul7-2025"></a>
+  AWS Glue Data Quality； 現在支援 AWS Glue Data Catalog 中的 Amazon S3 Tables、RMS、Lakehouse 和 AWS Lake Formation 受管 Iceberg 資料表。

### 2025 年 11 月 21 日
<a name="data-quality-release-notes-nov21-2025"></a>
+ AWS Glue Data Quality 現在支援增強型報告的規則標籤。您可以透過依特定標籤查詢結果來更有效地組織和分析資料品質結果，以識別特定類別內失敗的規則、依團隊或網域計算規則結果，並為不同的利益相關者建立重點報告。如需詳細資訊，請參閱[標籤](dqdl.md#dqdl-labels)。
+ AWS Glue Data Quality 現在支援 DQDL 中的常數，可讓您定義常數值，並在指令碼中參考它們。這有助於防止使用大型 SQL 陳述式時與查詢大小限制相關的問題。如需詳細資訊，請參閱[常數](dqdl.md#dqdl-constants)。