管理 Data Catalog
AWS Glue Data Catalog 是一個中央中繼資料儲存庫,可存放 Amazon S3 資料集的結構中繼資料和操作中繼資料。有效管理 Data Catalog 對於維護資料品質、效能、安全性和管控至關重要。
透過了解並套用這些 Data Catalog 管理實務,可以確保在資料環境發生變化時,中繼資料能夠保持準確、高效、安全且妥善管理。
本節涵蓋 Data Catalog 管理的下列方面:
更新資料表結構描述和分區 隨著資料變化,可能需要更新 Data Catalog 中定義的資料表結構描述或分區結構。如需有關如何使用 AWS Glue ETL 以程式設計方式進行這些更新的詳細資訊,請參閱使用 AWS Glue ETL 任務,在 Data Catalog 中更新結構描述並新增新的分區。
管理資料欄統計資料:準確的資料欄統計資料有助於最佳化查詢計劃並提高效能。如需有關如何產生、更新和管理資料欄統計資料的詳細資訊,請參閱使用資料欄統計資料最佳化查詢效能。
加密 Data Catalog 若要保護敏感中繼資料,可以使用 AWS Key Management Service (AWS KMS) 來加密 Data Catalog。本節說明如何啟用和管理 Data Catalog 的加密。
使用 AWS Lake Formation 保護 Data Catalog Lake Formation 提供全方位的資料湖安全與存取控制方法。可以使用 Lake Formation 來保護和管控對 Data Catalog 和基礎資料的存取。