啟用目錄層級自動資料表最佳化 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

啟用目錄層級自動資料表最佳化

您可以在 Data Catalog 中啟用所有新 Apache Iceberg 資料表的自動資料表最佳化。建立資料表之後,您也可以手動明確更新資料表最佳化設定。

若要更新 Data Catalog 設定以啟用目錄層級資料表最佳化,所使用的 IAM 角色必須具有根目錄的 glue:UpdateCatalog許可。您可以使用 GetCatalog API 驗證目錄屬性。

對於 Lake Formation 受管資料表,目錄最佳化組態期間選取的 IAM 角色需要任何新資料表或更新資料表的 Lake Formation ALTERINSERTDESCRIBEDELETE許可。

  1. 開啟 Lake Formation 主控台,網址為 https://console.aws.amazon.com/lakeformation/

  2. 在導覽窗格中,選擇 Data Catalog

  3. 選取目錄索引標籤。

  4. 選擇帳戶層級目錄。

  5. 選擇資料表最佳化,在資料表最佳化索引標籤下編輯。您也可以從動作中選擇編輯最佳化

    螢幕擷取畫面顯示在目錄層級啟用最佳化的編輯選項。
  6. 資料表最佳化頁面上,設定下列選項:

    螢幕擷取畫面顯示目錄層級的最佳化選項。
    1. 設定壓縮設定:

      • 啟用/停用壓縮。

      • 選擇具有執行最佳化工具所需許可的 IAM 角色。

        如需 IAM 角色許可要求的詳細資訊,請參閱 資料表最佳化先決條件

    2. 設定快照保留設定:

      • 啟用/停用保留。

      • 設定快照保留期間,以天為單位 - 預設為 5 天。

      • 設定要保留的快照數目 - 預設為 1 個快照。

      • 啟用/停用過期檔案的清除。

    3. 設定孤立檔案刪除設定:

      • 啟用/停用孤立檔案刪除。

      • 以天為單位設定孤立檔案保留期 - 預設為 3 天。

  7. 選擇儲存

使用下列 CLI 命令,以最佳化工具設定更新現有的目錄:

範例 使用最佳化工具設定更新目錄
aws glue update-catalog \ --name catalog-id \ --catalog-input \ '{ "CatalogId": "111122223333", "CatalogInput": { "CatalogProperties": { "CustomProperties": { "ColumnStatistics.Enabled": "false", "ColumnStatistics.RoleArn": "arn:aws:iam::111122223333:role/service-role/stats-role-name" }, "IcebergOptimizationProperties": { "RoleArn": "arn:aws:iam::111122223333:role/optimizer-role-name", "Compaction": { "enabled": "true" }, "Retention": { "enabled": "true", "snapshotRetentionPeriodInDays": "10", "numberOfSnapshotsToRetain": "5", "cleanExpiredFiles": "true" }, "OrphanFileDeletion": { "enabled": "true", "orphanFileRetentionPeriodInDays": "3" } } } } }'

如果您遇到目錄層級最佳化工具的問題,請檢查下列項目:

  • 確保 IAM 角色具有正確的許可,如先決條件一節中所述。

  • 檢查 CloudWatch 日誌是否有任何與最佳化工具操作相關的錯誤訊息。

    如需詳細資訊,請參閱《Amazon CloudWatch 使用者指南》中的檢視可用指標

  • 檢查目錄組態,確認目錄設定已成功套用。

  • 對於資料表存取失敗,請檢查 CloudWatch 日誌和 EventBridge 通知以取得詳細的錯誤資訊。