

# 圧縮の最適化
<a name="compaction-management"></a>

 Apache Iceberg などのオープンテーブル形式を使用する Amazon S3 データレイクは、データを S3 オブジェクトとして保存します。データレイクテーブルに数千の小さな Amazon S3 オブジェクトがある場合、メタデータのオーバーヘッドが増加し、読み取りパフォーマンスに悪影響が及びます。AWS Glue Data Catalog は Iceberg テーブル用のマネージド圧縮を提供し、小さなオブジェクトを圧縮してより大きなオブジェクトにまとめ、Amazon Athena、Amazon EMR、AWS Glue ETL ジョブなどの AWS 分析サービスによる読み取りパフォーマンスを向上させます。データカタログは、同時クエリに支障をきたすことなく圧縮を実行し、Parquet 形式のテーブルに対してのみ圧縮をサポートしています。

テーブルオプティマイザは、テーブルパーティションを継続的にモニタリングして、ファイル数とファイルサイズがしきい値を超えたときに圧縮プロセスを開始します。

データカタログでは、テーブル、またはそのいずれかのパーティションに 100 個を超えるファイルがある場合、圧縮プロセスが開始されます。各ファイルは、ターゲットのファイルサイズの 75% 未満である必要があります。ターゲットファイルサイズは、`write.target-file-size-bytes` テーブルプロパティによって定義されます。明示的に設定されていない場合、このプロパティはデフォルトで 512 MB に設定されます。

 制限事項については、「[マネージドデータ圧縮でサポートされる形式と制限事項](optimizer-notes.md#compaction-notes)」を参照してください。

**Topics**
+ [圧縮オプティマイザの有効化](enable-compaction.md)
+ [圧縮オプティマイザの無効化](disable-compaction.md)