本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Glue Data Quality
AWS Glue Data Quality 可讓您衡量和監控資料品質,以便做出正確的業務決策。AWS Glue Data Quality 以開放原始碼 DeeQu 架構為基礎,且提供受管的無伺服器體驗。AWS GlueData Quality 可與資料品質定義語言 (DQDL) 搭配運作,是您用來定義資料品質規則的網域特定語言。若要進一步了解 DQDL 和支援的規則類型,請參閱 資料品質定義語言 (DQDL) 參考。
如需了解產品詳細資訊和定價,請參閱 AWS Glue Data Quality
優點和重要功能
AWS Glue Data Quality 的優點和主要功能包括:
-
無伺服器:無需安裝、修補或維護。
-
快速開始使用:AWS Glue Data Quality 可快速分析您的資料,並為您建立資料品質規則。只要按兩下即可開始使用:「建立資料品質規則 → 建議規則」。
-
偵測資料品質問題:使用機器學習 (ML) 偵測異常和難以偵測的資料品質問題。
-
即興創作您的規則:提供超過 25 種立即可用的 DQ 規則,協助您輕鬆開始建立符合特定需求的規則。
-
評估品質並做出自信的業務決策:評估規則後,即可取得資料品質分數供您了解資料運作狀態。使用資料品質分數做出自信的業務決策。
-
零損壞資料:AWS Glue Data Quality 可協助您識別導致品質分數下降的確切記錄。輕鬆識別、隔離並修復這些記錄。
-
按使用量付費:使用 AWS Glue Data Quality 無需年度授權。
-
不受限制:AWS Glue Data Quality 是以開放原始碼 DeeQu 為建置基礎,可讓您保有使用開放式語言撰寫的規則。
-
資料品質檢查:您可以針對 Data Catalog 和 AWS Glue ETL 管道強制執行資料品質檢查,可讓您管理靜態和傳輸中的資料品質。
-
以 ML 為基礎的資料品質偵測:使用機器學習 (ML) 偵測異常和難以偵測的資料品質問題。
-
開放語言來表達規則 – 確保資料品質規則的撰寫一致且簡單。商業使用者可以輕鬆地以他們可以理解的直接語言,來表達資料品質規則。對於工程師,此語言提供彈性來產生程式碼、實作一致的版本控制,以及自動化部署。
運作方式
AWS Glue Data Quality 有兩種進入點:AWS Glue Data Catalog 與 AWS Glue ETL 任務。本節提供有關每個進入點支援之使用案例與 AWS Glue 功能的概觀。
適用於 AWS Glue Data Catalog 的資料品質
AWS Glue Data Quality 會評估存放於 AWS Glue Data Catalog 中的物件,讓非程式設計人員的使用者能夠輕鬆設定資料品質規則。這些人員角色包括資料管理員和業務分析師。
您可以針對下列使用案例選擇此選項:
-
您想要對已在 AWS Glue Data Catalog 中分類的資料集執行資料品質任務。
-
您致力於資料控管,且需要持續識別或評估資料湖中的資料品質問題。
您可以使用下列介面來管理資料型錄的資料品質:
-
AWS Glue 管理主控台
-
AWS Glue API
若要開始使用適用於 AWS Glue Data Catalog 的 AWS Glue Data Quality,請參閱 開始使用適用於 Data Catalog 的 AWS Glue Data Quality。
適用於 AWS Glue ETL 任務的資料品質
適用於 AWS Glue ETL 任務的 AWS Glue Data Quality 可讓您執行主動式資料品質任務。主動式任務可協助您在將資料集載入資料湖之前,識別並篩選出錯誤資料。
您可以針對下列使用案例選擇適用於 ETL 任務的資料品質:
-
您想要將資料品質任務納入 ETL 任務
-
您想要撰寫在 ETL 指令碼中定義資料品質任務的程式碼
-
您想要管理在視覺化資料管道中流動的資料品質
您可以使用下列介面來管理適用於 ETL 任務的資料品質:
-
AWS Glue Studio、AWS Glue Studio 筆記本和 AWS Glue 互動式工作階段
-
適用於 ETL 指令碼的 AWS Glue 程式庫
-
AWS Glue API
若要開始使用適用於 ETL 任務的資料品質,請參閱《AWS Glue Studio 使用者指南》中的教學課程:開始使用 Data Quality。
比較資料型錄的資料品質與 ETL 任務的資料品質
此資料表提供 AWS Glue Data Quality 支援之每個進入點的功能概觀。
| 功能 | 適用於資料型錄的資料品質 | 適用於 ETL 任務的資料品質 |
|---|---|---|
| 資料來源 | Amazon S3、Amazon Redshift、與 Data Catalog 相容的 JDBC 來源,以及交易資料湖格式,例如 Apache Iceberg、Apache Hudi 和 Delta Lake。AWS Lake Formation 受管 OTF 格式也受到某些限制支援。不支援在 AWS Glue Data Catalog 中編目的 Amazon Athena 檢視。請參閱 支援的來源類型。 | AWS Glue 支援的所有資料來源,包括自訂連接器和第三方連接器。 |
| 資料品質規則建議 | 支援 | 不支援 |
| 撰寫並執行 DQDL 規則 | 支援 | 支援 |
| 自動擴展 | 不支援 | 支援 |
| AWS Glue Flex 支援 | 不支援 | 支援 |
| 排程 | 評估資料品質規則和使用 Step Functions 時支援。 | 使用 Step Functions 和工作流程時支援。 |
| 識別未通過資料品質檢查的記錄。 | 不支援 | 支援 |
| 整合 Amazon Eventbridge | 支援 | 支援 |
| 整合 AWS Cloudwatch | 支援 | 支援 |
| 將資料品質結果寫入 Amazon S3 | 支援 | 支援 |
| 增量資料品質 | 透過下推述詞支援 | 透過 AWS Glue 書籤支援 |
| AWS CloudFormation 支援 | 支援 | 支援 |
| 以 ML 為基礎的異常偵測 | 不支援 | 支援 |
| 動態規則 | 不支援 | 支援 |
考量事項
在使用 AWS Glue Data Quality 之前,請考慮下列項目:
-
資料品質規則無法評估巢狀或清單類型的資料來源。請參閱 壓平合併巢狀結構。
術語
下表定義與 AWS Glue Data Quality 相關的術語。
- 資料品質定義語言 (DQDL)
-
可用來撰寫 AWS Glue Data Quality 規則的網域特定語言。
若要進一步了解 DQDL,請參閱 資料品質定義語言 (DQDL) 參考 指南。
- 資料品質
-
描述資料集滿足其特定用途的程度。AWS GlueData Quality 會根據資料集評估規則,以測量資料品質。每個規則都會檢查特定特性,例如資料更新狀態或完整性。若要量化資料品質,您可以使用資料品質分數。
- 資料品質分數
-
當您使用 AWS Glue Data Quality 評估規則集時,通過 (結果為 true) 的資料品質規則百分比。
- 規則
-
此即 DQDL 運算式,會檢查資料是否有特定特性並傳回布林值。如需更多詳細資訊,請參閱 規則結構。
- analyzer
-
收集資料統計資料的 DQDL 表達式。收集資料統計資料的分析器,收集的資料可供 ML 演算法用來偵測異常以及一段時間內難以偵測的資料品質問題。
- 規則集
-
包含一組資料品質規則的 AWS Glue 資源。規則集必須與 AWS Glue Data Catalog 中的資料表建立關聯。儲存規則集時,AWS Glue 會向規則集指派 Amazon Resource Name (ARN)。
- 資料品質分數
-
當您使用 AWS Glue Data Quality 評估規則集時,通過 (結果為 true) 的資料品質規則百分比。
- 觀察
-
AWS Glue 透過分析一段時間內從規則和分析器收集的資料統計資料,而產生的未經證實的洞察。
限制
AWS Glue Data Quality 服務限制:
-
您可以在規則集中擁有 2,000 個規則。如果您的規則集較大,建議您分區成多個規則集。
-
規則集的大小為 65 KB。如果您的規則集較大,建議您分區成多個規則集。
-
AWS Glue Data Quality 會在您建立規則或分析器時收集統計資料。儲存這些統計資料不會產生相關費用。但是,每個帳戶限制 10 萬個統計資料,這些統計資料最多會保留兩年。
AWS Glue Data Quality 的版本說明
本主題介紹在 AWS Glue Data Quality 中引入的功能。
正式推出:新功能
下列新功能適用於 AWS Glue Data Quality 的正式推出:
AWS Glue Studio 現在支援可識別哪些記錄未通過資料品質檢查的功能
全新的資料品質規則類型,例如驗證兩個資料集之間的資料參照完整性、比較兩個資料集之間的資料,以及資料類型檢查
改善 AWS Glue Data Catalog 使用者體驗
支援 Apache Iceberg、Apache Hudi 和 Delta Lake
支援 Amazon Redshift
透過 Amazon EventBridge 簡化通知
用於建立規則集的 AWS CloudFormation 支援
效能改善:ETL 和 AWS Glue Studio 中的快取選項,可提升評估資料品質時的效能
2023 年 11 月 27 日 (預覽)
-
採用 ML 的異常偵測功能現在可在 AWS Glue ETL 和 AWS Glue Studio 中使用。您現在可以使用這個功能來偵測異常和難以偵測的資料品質問題
2024 年 3 月 12 日
-
DQDL 改進
2024 年 6 月 26 日
-
DQDL 改進
-
DQDL 現在支援 where 子句,讓您可以在套用 DQ 規則之前篩選資料
-
2024 年 8 月 7 日
-
異常偵測和動態規則現已正式推出
2024 年 11 月 22 日
-
用於管理檔案資料品質的新規則類型
-
視覺化的 ETL 任務中的預設資料品質檢查
2024 年 12 月 6 日
-
AWS Glue Data Quality 現在支援 AWS Glue ETL 5.0 中的 Amazon SageMaker AI LakeHouse 資料表和 AWS Lake Formation 受管 Iceberg、Delta 和 HUDI 資料表。
2025 年 7 月 7 日
-
AWS Glue Data Quality; 現在支援 AWS Glue Data Catalog 中的 Amazon S3 Tables、RMS、Lakehouse 和 AWS Lake Formation 受管 Iceberg 資料表。