本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
啟用目錄層級自動資料表最佳化
您可以在 Data Catalog 中啟用所有新 Apache Iceberg 資料表的自動資料表最佳化。建立資料表之後,您也可以手動明確更新資料表最佳化設定。
若要更新 Data Catalog 設定以啟用目錄層級資料表最佳化,所使用的 IAM 角色必須具有根目錄的 glue:UpdateCatalog
許可。您可以使用 GetCatalog
API 驗證目錄屬性。
對於 Lake Formation 受管資料表,目錄最佳化組態期間選取的 IAM 角色需要任何新資料表或更新資料表的 Lake Formation ALTER
、INSERT
、 DESCRIBE
和 DELETE
許可。
-
開啟 Lake Formation 主控台,網址為 https://console.aws.amazon.com/lakeformation/
。 -
在導覽窗格中,選擇 Data Catalog。
-
選取目錄索引標籤。
-
選擇帳戶層級目錄。
-
選擇資料表最佳化,在資料表最佳化索引標籤下編輯。您也可以從動作中選擇編輯最佳化。
-
在資料表最佳化頁面上,設定下列選項:
-
設定壓縮設定:
-
啟用/停用壓縮。
-
選擇具有執行最佳化工具所需許可的 IAM 角色。
如需 IAM 角色許可要求的詳細資訊,請參閱 資料表最佳化先決條件 。
-
-
設定快照保留設定:
-
啟用/停用保留。
-
設定快照保留期間,以天為單位 - 預設為 5 天。
-
設定要保留的快照數目 - 預設為 1 個快照。
-
啟用/停用過期檔案的清除。
-
-
設定孤立檔案刪除設定:
-
啟用/停用孤立檔案刪除。
-
以天為單位設定孤立檔案保留期 - 預設為 3 天。
-
-
-
選擇儲存。
使用下列 CLI 命令,以最佳化工具設定更新現有的目錄:
範例 使用最佳化工具設定更新目錄
aws glue update-catalog \ --name
catalog-id
\ --catalog-input \ '{ "CatalogId": "111122223333
", "CatalogInput": { "CatalogProperties": { "CustomProperties": { "ColumnStatistics.Enabled": "false", "ColumnStatistics.RoleArn": "arn:aws:iam::111122223333
:role/service-role/stats-role-name
" }, "IcebergOptimizationProperties": { "RoleArn": "arn:aws:iam::111122223333
:role/optimizer-role-name
", "Compaction": { "enabled": "true
" }, "Retention": { "enabled": "true
", "snapshotRetentionPeriodInDays": "10
", "numberOfSnapshotsToRetain": "5
", "cleanExpiredFiles": "true
" }, "OrphanFileDeletion": { "enabled": "true
", "orphanFileRetentionPeriodInDays": "3
" } } } } }'
如果您遇到目錄層級最佳化工具的問題,請檢查下列項目:
-
確保 IAM 角色具有正確的許可,如先決條件一節中所述。
-
檢查 CloudWatch 日誌是否有任何與最佳化工具操作相關的錯誤訊息。
如需詳細資訊,請參閱《Amazon CloudWatch 使用者指南》中的檢視可用指標。
-
檢查目錄組態,確認目錄設定已成功套用。
-
對於資料表存取失敗,請檢查 CloudWatch 日誌和 EventBridge 通知以取得詳細的錯誤資訊。