フルデータ移行

フルデータ移行では、データファイルとメタデータが再作成されます。このアプローチには時間がかかり、インプレース移行と比較して追加のコンピューティングリソースが必要です。ただし、フルデータ移行は、テーブルの品質を向上させ、データストレージとアクセスパターンを最適化する大きな機会を提供します。

フルデータ移行中、整合性と正確性を確保するためのデータ検証、現在の要件をより適切に満たすためのスキーマの変更、クエリパフォーマンスを向上させるためのパーティション戦略の調整など、いくつかの有益なオペレーションを実行できます。また、データを再ソートして一般的なアクセスパターンを最適化し、Iceberg の隠しパーティショニングを実装してクエリ効率を高め、必要に応じてファイル形式変換 (CSV から Parquet など) を実行することもできます。

これらの機能により、フルデータ移行は Iceberg 形式への移行や、データストレージ戦略の包括的な調整と最適化に最適です。フルデータ移行にはより多くの時間とリソースが事前に必要ですが、結果的にデータ品質、組織、クエリのパフォーマンスが改善されると、長期的な利点が得られます。フルデータ移行を実装するには、次のいずれかのオプションを使用します。

Spark (Amazon EMR または) または Athena で CREATE TABLE ... AS SELECT (CTAS AWS Glue) ステートメントを使用します。および句を使用して PARTITIONED BY、新しい Iceberg テーブルのパーティション仕様と TBLPROPERTIESテーブルプロパティを設定できます。ソーステーブルから継承するのではなく、必要に応じて新しいテーブルのスキーマとパーティショニングを変更できます。
Amazon EMR またはで Spark を使用して、ソーステーブルから読み取り、データを新しい Iceberg テーブルとして書き込みます AWS Glue。詳細については、Iceberg ドキュメントの「テーブルの作成」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

インプレース移行

移行戦略の選択