データ品質検証を有効にする

プロンプトでソースクラスター ID とターゲットクラスター IDsの両方を指定することで、データ品質チェックを有効にできます。システムはソースクラスターで既存のアプリケーションを実行して、比較用のベースラインメタデータを収集します。

注: データ品質を追跡できるのは Spark 書き込みオペレーションのみです。


Upgrade my pyspark application <local-path>/pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster <source-cluster-id> for source version run  
and <target-cluster-id> for target version run. Use s3 path s3://<please fill in your staging bucket path> to store updated application artifacts  
and s3://<please fill in your staging bucket path>/metadata for storing metadata. Enable data quality checks.

Data Quality ワークフローの違い

ワークフローは、上記の順序でこれらの追加ステップを使用して、標準アップグレードプロセスと同じステップに従います。

[ステップ 3 の後: レビューとカスタマイズを計画する]
- 現在の設定でビルドする: ソースクラスターの送信用に現在の設定でアプリケーションを構築します。
- ソース EMR クラスターで検証: ソース Spark バージョンで元のアプリケーションを実行し、ベースライン比較のために出力メタデータを収集します。
[ステップ 7 の後: アップグレードの概要] Data Quality Summary: バージョンと分析間のデータ品質比較レポート。

現在、データ品質の不一致機能には以下が含まれます。

スキーマチェック: 列構造の欠落または新しく追加された列、データ型の違い、nullability の変更を検出します。
値チェック (数値列と文字列列のみ)
- 最小、最大、平均 (数値列のみの平均) を比較します。
- 文字列の場合、最小と最大は辞書順に基づいています。
集計統計チェック: ソース出力とターゲット出力の合計行数を比較します。

データ品質検証: 範囲と制限

データ品質検証では、Spark バージョン >= 3.0 の spark-submit コマンドを使用した EMR-EC2 ステップがサポートされており、EMR クラスターに StepConcurrencyLevel > 1 を含めることはできません。Data Quality Validation は、Spark クエリプランのデータシンクノードの統計を評価し (データソース/変換のメタデータはキャプチャされません）、ファイル書き込み、データベース挿入、テーブル作成、さまざまなデータソース出力などの一般的な Spark 書き込みオペレーションをカバーします。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Spark アップグレードエージェントのワークフローの詳細

Spark アップグレードエージェントのプロンプト例