DQDL ルールタイプリファレンス - AWS Glue

DQDL ルールタイプリファレンス

このセクションでは、AWS Glue Data Quality がサポートする各ルールタイプのリファレンスを提供します。

注記
  • 現在、DQDL はリストタイプまたはネストされた列データをサポートしていません。

  • 以下の表の括弧内の値は、ルール引数で指定された情報に置き換えられます。

  • ルールでは通常、式に追加の引数が必要です。

Ruletype 説明 引数 報告されたメトリクス ルールとしてサポートされていますか? アナライザーとしてサポートされていますか? 行レベルの結果を返しますか? 動的ルールをサポートしますか? 観察結果を生成 Where 句の構文をサポートしますか?
AggregateMatch 売上総額などのサマリーメトリクスを比較して、2 つのデータセットが一致しているかをチェックします。金融機関が、すべてのデータがソースシステムから取り込まれているかを比較する際などに便利です。 1 つ以上の集計

1 番目と 2 番目の集計列名が一致する場合:

Column.[Column].AggregateMatch

1 番目と 2 番目の集計列の名前が異なる場合:

Column.[Column1,Column2].AggregateMatch

あり なし なし なし なし なし
AllStatistics データセット内の指定した列の複数のメトリクスを収集するスタンドアロンアナライザー。 単一の列名

すべてのタイプの列の場合:

Dataset.*.RowCount

Column.[Column].Completeness

Column.[Column].Uniqueness

文字列値列のその他のメトリクス:

ColumnLength metrics

数値列のその他のメトリクス:

ColumnValues metrics

なし あり なし なし なし なし
ColumnCorrelation 2 つの列にどの程度の相関性があるかを確認します。 列名はちょうど 2 つです Multicolumn.[Column1,Column2].ColumnCorrelation はい あり なし あり なし あり
ColumnCount 抜け落ちた列がないかを確認します。 なし Dataset.*.ColumnCount はい あり なし あり あり なし
ColumnDataType 列がデータ型に準拠しているかをチェックします。 列名は 1 つだけです Column.[Column].ColumnDataType.Compliance あり なし なし はい (行レベルのしきい値式の場合) なし あり
ColumnExists データセットに列が存在するかをチェックします。これにより、セルフサービスのデータプラットフォームを構築しているユーザーは、特定の列が利用可能であることを確認できます。 列名は 1 つだけです 該当なし はい なし なし なし なし なし
ColumnLength データの長さが一貫しているかをチェックします。 列名は 1 つだけです

Column.[Column].MaximumLength

Column.[Column].MinimumLength

行レベルのしきい値が指定されている場合のその他のメトリクス:

Column.[Column].ColumnValues.Compliance

はい あり はい (行レベルのしきい値が指定されている場合) なし はい。最小長と最大長を分析して観察結果のみを生成します。 あり
ColumnNamesMatchPattern 列名が定義済みのパターンと一致しているかをチェックします。ガバナンスチームが列名の一貫性を保つ際などに便利です。 列名の正規表現 Dataset.*.ColumnNamesPatternMatchRatio あり なし なし なし なし なし
ColumnValues データが定義済みの値と一致しているかをチェックします。このルールは正規表現に対応しています。 列名は 1 つだけです

Column.[Column].Maximum

Column.[Column].Minimum

行レベルのしきい値が指定されている場合のその他のメトリクス:

Column.[Column].ColumnValues.Compliance

はい あり はい (行レベルのしきい値が指定されている場合) なし はい。最小値と最大値を分析して観察結果のみを生成します。 あり
Completeness データに空白または NULL がないかをチェックします。 列名は 1 つだけです

Column.[Column].Completeness

はい あり あり あり あり あり
CustomSql ユーザーは、ほぼすべてのタイプのデータ品質チェックを SQL に実装できます。

SQL ステートメント

(オプション) 行レベルのしきい値

Dataset.*.CustomSQL

行レベルのしきい値が指定されている場合のその他のメトリクス:

Dataset.*.CustomSQL.Compliance

あり なし はい (行レベルのしきい値が指定されている場合) あり なし なし
DataFreshness データが最新であるかをチェックします。 列名は 1 つだけです Column.[Column].DataFreshness.Compliance あり なし あり なし なし あり
DatasetMatch 2 つのデータセットを比較して、同期しているかを識別します。

参照データセットの名前

列のマッピング

(オプション) 一致を確認する列

Dataset.[ReferenceDatasetAlias].DatasetMatch あり なし あり あり なし なし
DistinctValuesCount 重複する値がないかをチェックします。 列名は 1 つだけです Column.[Column].DistinctValuesCount はい あり あり あり あり あり
DetectAnomalies 別のルールタイプで報告されたメトリクスに異常がないかチェックします。 ルールタイプ ルールタイプ引数で報告されたメトリクス (1 つまたは複数) あり なし なし なし なし なし
エントロピー データのエントロピーをチェックします。 列名は 1 つだけです Column.[Column].Entropy はい あり なし あり なし あり
IsComplete すべてのデータが完全であるかをチェックします。 列名は 1 つだけです Column.[Column].Completeness あり なし あり なし なし あり
IsPrimaryKey 列がプライマリキー (NULL および一意ではない) であるかをチェックします。 列名は 1 つだけです

1 列の場合:

Column.[Column].Uniqueness

複数列の場合:

Multicolumn.[CommaDelimitedColumns].Uniqueness

あり なし あり なし なし あり
IsUnique データがすべて一意であるかをチェックします。 列名は 1 つだけです Column.[Column].Uniqueness あり なし あり なし なし あり
Mean 平均値が、設定済みのしきい値と一致するかをチェックします。 列名は 1 つだけです Column.[Column].Mean はい あり あり あり なし あり
ReferentialIntegrity 2 つのデータセットに参照整合性があるかをチェックします。

データセットの 1 つまたは複数の列名

参照データセットの 1 つまたは複数の列名

Column.[ReferenceDatasetAlias].ReferentialIntegrity あり なし あり あり なし なし
RowCount レコード数がしきい値と一致するかをチェックします。 なし Dataset.*.RowCount はい あり なし あり あり あり
RowCountMatch 2 つのデータセットのレコード数が一致するかをチェックします。 参照データセットのエイリアス Dataset.[ReferenceDatasetAlias].RowCountMatch あり なし なし あり なし なし
StandardDeviation 標準偏差がしきい値と一致するかをチェックします。 列名は 1 つだけです Column.[Column].StandardDeviation はい あり あり あり なし あり
SchemaMatch 2 つのデータセットのスキーマが一致するかをチェックします。 参照データセットのエイリアス Dataset.[ReferenceDatasetAlias].SchemaMatch あり なし なし あり なし なし
合計 合計が、設定済みのしきい値と一致するかをチェックします。 列名は 1 つだけです Column.[Column].Sum はい あり なし あり なし あり
Uniqueness データセットの一意性がしきい値と一致するかをチェックします。 列名は 1 つだけです Column.[Column].Uniqueness はい あり あり あり なし あり
UniqueValueRatio 一意の値の比率がしきい値と一致するかをチェックします。 列名は 1 つだけです Column.[Column].UniqueValueRatio はい あり あり あり なし あり
FileFreshness Amazon S3 内のファイルが最新かどうかを確認します。 ファイルまたはフォルダのパスとしきい値。

Dataset.*.FileFreshness.Compliance

Dataset.*.FileCount

あり なし なし なし なし なし
FileMatch ファイルの内容がチェックサムまたは他のファイルと一致するかどうかを確認します。このルールはチェックサムを使用して、2 つのファイルが同じかどうかを検証します。 ソースファイルまたはフォルダパスとターゲットファイルまたはフォルダパス。 統計は生成されません。 あり なし なし なし なし なし
FileSize ファイルのサイズが指定された条件と一致するかどうかを確認します。 ファイルまたはフォルダのパスとしきい値。

Dataset.*.FileSize.Compliance

Dataset.*.FileCount

Dataset.*.MaximumFileSize

Dataset.*.MinimumFileSize

あり なし なし なし なし なし
FileUniqueness チェックサムを使用してファイルが一意かどうかを確認します。 ファイルまたはフォルダのパスとしきい値。

Dataset.*.FileUniquenessRatio

Dataset.*.FileCount

あり なし なし なし なし なし