データ品質検証を有効にする - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データ品質検証を有効にする

プロンプトでソースクラスター ID とターゲットクラスター IDsの両方を指定することで、データ品質チェックを有効にできます。システムはソースクラスターで既存のアプリケーションを実行して、比較用のベースラインメタデータを収集します。

注: データ品質を追跡できるのは Spark 書き込みオペレーションのみです。

Upgrade my pyspark application <local-path>/pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster <source-cluster-id> for source version run and <target-cluster-id> for target version run. Use s3 path s3://<please fill in your staging bucket path> to store updated application artifacts and s3://<please fill in your staging bucket path>/metadata for storing metadata. Enable data quality checks.

Data Quality ワークフローの違い

ワークフローは、上記の順序でこれらの追加ステップを使用して、標準アップグレードプロセスと同じステップに従います。

  • [ステップ 3 の後: レビューとカスタマイズを計画する]

    • 現在の設定でビルドする: ソースクラスターの送信用に現在の設定でアプリケーションを構築します。

    • ソース EMR クラスターで検証: ソース Spark バージョンで元のアプリケーションを実行し、ベースライン比較のために出力メタデータを収集します。

  • [ステップ 7 の後: アップグレードの概要] Data Quality Summary: バージョンと分析間のデータ品質比較レポート。

現在、データ品質の不一致機能には以下が含まれます。

  • スキーマチェック: 列構造の欠落または新しく追加された列、データ型の違い、nullability の変更を検出します。

  • 値チェック (数値列と文字列列のみ)

    • 最小、最大、平均 (数値列のみの平均) を比較します。

    • 文字列の場合、最小と最大は辞書順に基づいています。

  • 集計統計チェック: ソース出力とターゲット出力の合計行数を比較します。

データ品質検証: 範囲と制限

データ品質検証では、Spark バージョン >= 3.0 の spark-submit コマンドを使用した EMR-EC2 ステップがサポートされており、EMR クラスターに StepConcurrencyLevel > 1 を含めることはできません。Data Quality Validation は、Spark クエリプランのデータシンクノードの統計を評価し (データソース/変換のメタデータはキャプチャされません)、ファイル書き込み、データベース挿入、テーブル作成、さまざまなデータソース出力などの一般的な Spark 書き込みオペレーションをカバーします。