啟用型錄層級自動產生統計資料
您可以在 Data Catalog 中,為所有新的 Apache Iceberg 資料表和非 OTF 資料表 (Parquet、JSON、CSV、XML、ORC、ION) 格式的資料表啟用自動列統計資料產生。建立資料表後,您也可以手動明確更新資料欄統計資料設定。
若要更新 Data Catalog 設定以啟用型錄層級,所使用的 IAM 角色必須具有根型錄的 glue:UpdateCatalog 許可或 AWS Lake FormationALTER CATALOG 許可。您可以使用 GetCatalog API 驗證型錄屬性。
- AWS Management Console
-
在帳戶層級啟用自動產生資料欄統計資料
開啟 Lake Formation 主控台,網址為 https://console.aws.amazon.com/lakeformation/
。 在左側導覽列上,選擇型錄。
在型錄摘要頁面上,選擇最佳化組態下的編輯。
-
在資料表最佳化組態頁面上,選擇為型錄的資料表啟用自動產生統計資料選項。
-
選擇現有的 IAM 角色,或建立一個具有執行資料欄統計資料任務所需許可的新角色。
-
選擇提交。
- AWS CLI
-
您也可以透過 AWS CLI 啟用型錄層級統計資料收集。若要使用 AWS CLI 設定資料表層級統計資料收集,請執行下列命令:
aws glue update-catalog --cli-input-json '{ "name":
"123456789012", "catalogInput": { "description": "Updating root catalog with role arn", "catalogProperties": { "customProperties": { "ColumnStatistics.RoleArn": "arn:aws:iam::"123456789012":role/service-role/AWSGlueServiceRole", "ColumnStatistics.Enabled": "true" } } } }'上述命令會呼叫 AWS Glue 的
UpdateCatalog操作,該操作採用具有下列鍵值對的CatalogProperties結構來產生型錄層級統計資料:-
ColumnStatistics.RoleArn – 用於為產生型錄層級統計資料而觸發的所有任務的 IAM 角色 ARN
-
ColumnStatistics.Enabled – 布林值,指出型錄層級設定是啟用還是停用
-
自動產生資料欄統計資料
檢視自動資料表層級設定