管理 Data Catalog - AWS Glue

管理 Data Catalog

AWS Glue Data Catalog 是一個中央中繼資料儲存庫,可存放 Amazon S3 資料集的結構中繼資料和操作中繼資料。有效管理 Data Catalog 對於維護資料品質、效能、安全性和管控至關重要。

透過了解並套用這些 Data Catalog 管理實務,可以確保在資料環境發生變化時,中繼資料能夠保持準確、高效、安全且妥善管理。

本節涵蓋 Data Catalog 管理的下列方面:

  • 更新資料表結構描述和分區 隨著資料變化,可能需要更新 Data Catalog 中定義的資料表結構描述或分區結構。如需有關如何使用 AWS Glue ETL 以程式設計方式進行這些更新的詳細資訊,請參閱使用 AWS Glue ETL 任務,在 Data Catalog 中更新結構描述並新增新的分區

  • 管理資料欄統計資料:準確的資料欄統計資料有助於最佳化查詢計劃並提高效能。如需有關如何產生、更新和管理資料欄統計資料的詳細資訊,請參閱使用資料欄統計資料最佳化查詢效能

  • 加密 Data Catalog 若要保護敏感中繼資料,可以使用 AWS Key Management Service (AWS KMS) 來加密 Data Catalog。本節說明如何啟用和管理 Data Catalog 的加密。

  • 使用 AWS Lake Formation 保護 Data Catalog Lake Formation 提供全方位的資料湖安全與存取控制方法。可以使用 Lake Formation 來保護和管控對 Data Catalog 和基礎資料的存取。