データの品質チェック - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データの品質チェック

データ品質は、データクリーニングプロセスに不可欠であるものの、見過ごされがちな部分です。次の図は、データ品質チェックがデータエンジニアリングの自動化とアクセスコントロールのライフサイクルにどのように適合するかを示しています。

データ品質の図

次の表は、ユースケースに基づくさまざまなデータ品質ソリューションの概要を示しています。

ユースケース

解決策

列レベルまたはテーブルレベルの品質条件を追加するためのノーコードソリューション

AWS Glue DataBrew

すべての列値が 1~12 の間であるか、テーブルまたは列が空かどうかを確認します

列レベルまたはテーブルレベルの品質条件を追加するために AWS Glue ジョブまたはノーコードソリューション (プレビュー) に追加されたカスタムコード

AWS Glue Data Quality

first_name が null でないか、列 phone_number に数値のみが含まれているか、「+」演算子や平均や合計などの統計関数が含まれているかどうかを確認します。

カスタムチェック

AWS LambdaAWS Glue、Amazon EMR などの任意の ETL

A 列の値が B 列と C 列の対応する値よりも常に大きいか、または continent 列の値が常に地理的に正しく、city 列から導出されているかどうかを確認します。

メトリクスレポート、制約の検証、制約の提案を含む高度なソリューション

Deequ

列メトリクス review_id の完全性の CompletenessConstraint1 と等しいかどうかを確認します