フルデータ移行 - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

フルデータ移行

フルデータ移行では、データファイルとメタデータが再作成されます。このアプローチには時間がかかり、インプレース移行と比較して追加のコンピューティングリソースが必要です。ただし、フルデータ移行は、テーブルの品質を向上させ、データストレージとアクセスパターンを最適化する大きな機会を提供します。

フルデータ移行中、整合性と正確性を確保するためのデータ検証、現在の要件をより適切に満たすためのスキーマの変更、クエリパフォーマンスを向上させるためのパーティション戦略の調整など、いくつかの有益なオペレーションを実行できます。また、データを再ソートして一般的なアクセスパターンを最適化し、Iceberg の隠しパーティショニングを実装してクエリ効率を高め、必要に応じてファイル形式変換 (CSV から Parquet など) を実行することもできます。

これらの機能により、フルデータ移行は Iceberg 形式への移行や、データストレージ戦略の包括的な改善と最適化に最適です。フルデータ移行にはより多くの時間とリソースが事前に必要ですが、結果的にデータ品質、組織、クエリのパフォーマンスが向上しれば、長期的なメリットが得られます。フルデータ移行を実装するには、次のいずれかのオプションを使用します。

  • Spark (Amazon EMR または) または Athena で CREATE TABLE ... AS SELECT (CTAS AWS Glue) ステートメントを使用します。および 句を使用してPARTITIONED BY、新しい Iceberg テーブルのパーティション仕様とTBLPROPERTIESテーブルプロパティを設定できます。ソーステーブルから継承するのではなく、必要に応じて新しいテーブルのスキーマとパーティショニングを変更できます。

  • Amazon EMR または で Spark を使用して、ソーステーブルから読み取り、データを新しい Iceberg テーブルとして書き込みます AWS Glue。詳細については、Iceberg ドキュメントの「テーブルの作成」を参照してください。