翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
データ品質検証を有効にする
プロンプトでソースクラスター ID とターゲットクラスター IDsの両方を指定することで、データ品質チェックを有効にできます。システムはソースクラスターで既存のアプリケーションを実行して、比較用のベースラインメタデータを収集します。
注: データ品質を追跡できるのは Spark 書き込みオペレーションのみです。
Upgrade my pyspark application <local-path>/pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster <source-cluster-id> for source version run and <target-cluster-id> for target version run. Use s3 path s3://<please fill in your staging bucket path> to store updated application artifacts and s3://<please fill in your staging bucket path>/metadata for storing metadata. Enable data quality checks.
Data Quality ワークフローの違い
ワークフローは、上記の順序でこれらの追加ステップを使用して、標準アップグレードプロセスと同じステップに従います。
-
[ステップ 3 の後: レビューとカスタマイズを計画する]
-
現在の設定でビルドする: ソースクラスターの送信用に現在の設定でアプリケーションを構築します。
-
ソース EMR クラスターで検証: ソース Spark バージョンで元のアプリケーションを実行し、ベースライン比較のために出力メタデータを収集します。
-
-
[ステップ 7 の後: アップグレードの概要] Data Quality Summary: バージョンと分析間のデータ品質比較レポート。
現在、データ品質の不一致機能には以下が含まれます。
-
スキーマチェック: 列構造の欠落または新しく追加された列、データ型の違い、nullability の変更を検出します。
-
値チェック (数値列と文字列列のみ)
-
最小、最大、平均 (数値列のみの平均) を比較します。
-
文字列の場合、最小と最大は辞書順に基づいています。
-
-
集計統計チェック: ソース出力とターゲット出力の合計行数を比較します。
データ品質検証: 範囲と制限
データ品質検証では、Spark バージョン >= 3.0 の spark-submit コマンドを使用した EMR-EC2 ステップがサポートされており、EMR クラスターに StepConcurrencyLevel > 1 を含めることはできません。Data Quality Validation は、Spark クエリプランのデータシンクノードの統計を評価し (データソース/変換のメタデータはキャプチャされません)、ファイル書き込み、データベース挿入、テーブル作成、さまざまなデータソース出力などの一般的な Spark 書き込みオペレーションをカバーします。