啟用型錄層級自動最佳化資料表 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

啟用型錄層級自動最佳化資料表

您可以在 Data Catalog 中為所有新 Apache Iceberg 資料表啟用自動最佳化資料表。建立資料表後,您也可以手動明確更新資料表最佳化設定。

若要更新 Data Catalog 設定以啟用型錄層級最佳化資料表,所使用的 IAM 角色必須具有根型錄的 glue:UpdateCatalog 許可。您可以使用 GetCatalog API 驗證型錄屬性。

對於 Lake Formation 受管資料表,型錄最佳化組態期間選取的 IAM 角色需要任何新資料表或更新資料表的 Lake Formation ALTERDESCRIBEINSERTDELETE 許可。

  1. 開啟 Lake Formation 主控台,網址為 https://console.aws.amazon.com/lakeformation/

  2. 在導覽窗格中,選擇 Data Catalog

  3. 選取型錄索引標籤。

  4. 選擇帳戶層級型錄。

  5. 選擇資料表最佳化資料表最佳化索引標籤下的編輯。您也可以從動作中選擇編輯最佳化

    螢幕擷取畫面顯示在型錄層級啟用最佳化的編輯選項。
  6. 資料表最佳化頁面上,設定下列選項:

    螢幕擷取畫面顯示型錄層級的最佳化選項。
    1. 設定壓縮設定:

      • 啟用/停用壓縮。

      • 選擇具有執行最佳化工具所需許可的 IAM 角色。

        如需 IAM 角色的許可要求的詳細資訊,請參閱 資料表最佳化先決條件

    2. 設定快照保留設定:

      • 啟用/停用保留。

      • 設定快照保留期間 (天) - 預設值為 5 天。

      • 設定要保留的快照數目 - 預設值為 1 個快照。

      • 啟用/停用清除過期檔案。

    3. 設定孤立檔案刪除設定:

      • 啟用/停用孤立檔案刪除。

      • 設定孤立檔案保留期間 (天) - 預設值為 3 天。

  7. 選擇儲存

使用下列 CLI 命令,透過最佳化工具設定更新現有的型錄:

範例 透過最佳化工具設定更新型錄
aws glue update-catalog \ --name catalog-id \ --catalog-input \ '{ "CatalogId": "111122223333", "CatalogInput": { "CatalogProperties": { "CustomProperties": { "ColumnStatistics.Enabled": "false", "ColumnStatistics.RoleArn": "arn:aws:iam::111122223333:role/service-role/stats-role-name" }, "IcebergOptimizationProperties": { "RoleArn": "arn:aws:iam::111122223333:role/optimizer-role-name", "Compaction": { "enabled": "true" }, "Retention": { "enabled": "true", "snapshotRetentionPeriodInDays": "10", "numberOfSnapshotsToRetain": "5", "cleanExpiredFiles": "true" }, "OrphanFileDeletion": { "enabled": "true", "orphanFileRetentionPeriodInDays": "3" } } } } }'

如果您遇到型錄層級最佳化工具的問題,請檢查下列項目:

  • 確保 IAM 角色具有正確的許可,如「先決條件」一節中所述。

  • 檢查 CloudWatch 日誌是否有任何與最佳化工具操作相關的錯誤訊息。

    如需詳細資訊,請參閱《Amazon CloudWatch 使用者指南》中的檢視可用指標

  • 檢查型錄組態,以確認型錄設定已成功套用。

  • 對於資料表存取失敗,請檢查 CloudWatch 日誌和 EventBridge 通知,以取得詳細的錯誤資訊。