本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
目錄層級資料表最佳化工具
使用一次性目錄組態,您可以為 中所有新的和更新的 Apache Iceberg 資料表設定自動最佳化工具,例如壓縮、快照保留和孤立檔案刪除 AWS Glue Data Catalog。目錄層級最佳化工具組態可讓您在目錄中的所有資料表之間套用一致的最佳化工具設定,無需為每個資料表個別設定最佳化工具。
資料湖管理員可以在 Lake Formation 主控台中選取預設目錄,並使用 Table optimization
選項啟用最佳化工具,以設定資料表最佳化工具。當您在 Data Catalog 中建立新資料表或更新現有資料表時,Data Catalog 會自動執行資料表最佳化,以減少操作負擔。
如果您已在資料表層級設定最佳化,或先前已刪除資料表的資料表最佳化設定,則這些資料表特定設定優先於資料表最佳化的預設目錄設定。如果未在資料表或目錄層級定義組態參數,則會套用 Iceberg 資料表屬性值。此設定適用於快照保留和孤立檔案刪除最佳化工具。
啟用目錄層級最佳化工具時,請考慮下列事項:
-
當您在建立目錄時設定最佳化設定,並隨後透過更新目錄請求停用最佳化時,操作會逐級瀏覽目錄內的所有資料表。
-
如果您已為指定資料表設定最佳化工具,則目錄層級的停用操作不會影響此資料表。
-
當您在目錄層級停用最佳化工具時,具有現有最佳化工具組態的資料表將維持其特定設定,並不受目錄層級變更的影響。不過,沒有自己的最佳化工具組態的資料表會從目錄層級繼承已停用的狀態。
-
由於快照保留和孤立檔案刪除最佳化工具可以以排程為基礎,因此更新會在排程開始時引入隨機延遲。這會導致每個最佳化工具在稍微不同的時間啟動,分散負載並降低超出服務限制的可能性。