啟用型錄層級自動產生統計資料 - AWS Glue

啟用型錄層級自動產生統計資料

您可以在 Data Catalog 中,為所有新的 Apache Iceberg 資料表和非 OTF 資料表 (Parquet、JSON、CSV、XML、ORC、ION) 格式的資料表啟用自動列統計資料產生。建立資料表後,您也可以手動明確更新資料欄統計資料設定。

若要更新 Data Catalog 設定以啟用型錄層級,所使用的 IAM 角色必須具有根型錄的 glue:UpdateCatalog 許可或 AWS Lake FormationALTER CATALOG 許可。您可以使用 GetCatalog API 驗證型錄屬性。

AWS Management Console
在帳戶層級啟用自動產生資料欄統計資料
  1. 開啟 Lake Formation 主控台,網址為 https://console.aws.amazon.com/lakeformation/

  2. 在左側導覽列上,選擇型錄

  3. 型錄摘要頁面上,選擇最佳化組態下的編輯

    螢幕擷取畫面顯示可用來產生資料欄統計資料的選項。
  4. 資料表最佳化組態頁面上,選擇為型錄的資料表啟用自動產生統計資料選項。

    螢幕擷取畫面顯示可用來產生資料欄統計資料的選項。
  5. 選擇現有的 IAM 角色,或建立一個具有執行資料欄統計資料任務所需許可的新角色。

  6. 選擇提交

AWS CLI

您也可以透過 AWS CLI 啟用型錄層級統計資料收集。若要使用 AWS CLI 設定資料表層級統計資料收集,請執行下列命令:

aws glue update-catalog --cli-input-json '{
    "name": "123456789012",
    "catalogInput": {
        "description": "Updating root catalog with role arn",
        "catalogProperties": {
            "customProperties": {
                "ColumnStatistics.RoleArn": "arn:aws:iam::"123456789012":role/service-role/AWSGlueServiceRole",
                "ColumnStatistics.Enabled": "true"
            }
        }
    }
}'
                   

上述命令會呼叫 AWS Glue 的 UpdateCatalog 操作,該操作採用具有下列鍵值對的 CatalogProperties 結構來產生型錄層級統計資料:

  • ColumnStatistics.RoleArn – 用於為產生型錄層級統計資料而觸發的所有任務的 IAM 角色 ARN

  • ColumnStatistics.Enabled – 布林值,指出型錄層級設定是啟用還是停用