本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
啟用型錄層級自動最佳化資料表
您可以在 Data Catalog 中為所有新 Apache Iceberg 資料表啟用自動最佳化資料表。建立資料表後,您也可以手動明確更新資料表最佳化設定。
若要更新 Data Catalog 設定以啟用型錄層級最佳化資料表,所使用的 IAM 角色必須具有根型錄的 glue:UpdateCatalog 許可。您可以使用 GetCatalog API 驗證型錄屬性。
對於 Lake Formation 受管資料表,型錄最佳化組態期間選取的 IAM 角色需要任何新資料表或更新資料表的 Lake Formation ALTER、DESCRIBE、INSERT 和 DELETE 許可。
-
開啟 Lake Formation 主控台,網址為 https://console.aws.amazon.com/lakeformation/
。 -
在導覽窗格中,選擇 Data Catalog。
-
選取型錄索引標籤。
-
選擇帳戶層級型錄。
-
選擇資料表最佳化、資料表最佳化索引標籤下的編輯。您也可以從動作中選擇編輯最佳化。
-
在資料表最佳化頁面上,設定下列選項:
-
設定壓縮設定:
-
啟用/停用壓縮。
-
選擇具有執行最佳化工具所需許可的 IAM 角色。
如需 IAM 角色的許可要求的詳細資訊,請參閱 資料表最佳化先決條件 。
-
-
設定快照保留設定:
-
啟用/停用保留。
-
設定快照保留期間 (天) - 預設值為 5 天。
-
設定要保留的快照數目 - 預設值為 1 個快照。
-
啟用/停用清除過期檔案。
-
-
設定孤立檔案刪除設定:
-
啟用/停用孤立檔案刪除。
-
設定孤立檔案保留期間 (天) - 預設值為 3 天。
-
-
-
選擇儲存。
使用下列 CLI 命令,透過最佳化工具設定更新現有的型錄:
範例 透過最佳化工具設定更新型錄
aws glue update-catalog \ --namecatalog-id\ --catalog-input \ '{ "CatalogId": "111122223333", "CatalogInput": { "CatalogProperties": { "CustomProperties": { "ColumnStatistics.Enabled": "false", "ColumnStatistics.RoleArn": "arn:aws:iam::111122223333:role/service-role/stats-role-name" }, "IcebergOptimizationProperties": { "RoleArn": "arn:aws:iam::111122223333:role/optimizer-role-name", "Compaction": { "enabled": "true" }, "Retention": { "enabled": "true", "snapshotRetentionPeriodInDays": "10", "numberOfSnapshotsToRetain": "5", "cleanExpiredFiles": "true" }, "OrphanFileDeletion": { "enabled": "true", "orphanFileRetentionPeriodInDays": "3" } } } } }'
如果您遇到型錄層級最佳化工具的問題,請檢查下列項目:
-
確保 IAM 角色具有正確的許可,如「先決條件」一節中所述。
-
檢查 CloudWatch 日誌是否有任何與最佳化工具操作相關的錯誤訊息。
如需詳細資訊,請參閱《Amazon CloudWatch 使用者指南》中的檢視可用指標。
-
檢查型錄組態,以確認型錄設定已成功套用。
-
對於資料表存取失敗,請檢查 CloudWatch 日誌和 EventBridge 通知,以取得詳細的錯誤資訊。