

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 中的資料探索和目錄編製 AWS Glue
<a name="catalog-and-crawler"></a>

 AWS Glue Data Catalog 是集中式儲存庫，可存放組織資料集的相關中繼資料。其可作為您資料來源之位置、結構描述及執行時期指標的索引。中繼資料儲存在中繼資料資料表中，其中每個資料表代表單一資料存放區。

您可以使用編目程式填入 Data Catalog，該編目程式會自動掃描資料來源並擷取中繼資料。編目程式可以連接至 AWS的內部 (AWS型) 和外部的資料來源。

如需有關受支援事件來源的詳細資訊，請參閱[支援的網路爬取資料來源](crawler-data-stores.md)。

您也可以根據特定需求定義資料表結構、結構描述和分區結構，在 Data Catalog 中手動建立資料表。

如需手動建立中繼資料表的詳細資訊，請參閱[手動定義中繼資料](populate-dg-manual.md)。

您可以使用 Data Catalog 中的資訊來建立和監控 ETL 任務。Data Catalog 與其他 AWS 分析服務整合，提供資料來源的統一檢視，讓您更輕鬆地管理和分析資料。
+ Amazon Athena – 使用 SQL 在 Data Catalog 中儲存和查詢 Amazon S3 資料的資料表中繼資料。
+ AWS Lake Formation – 集中定義和管理精細的資料存取政策和稽核資料存取。
+ Amazon EMR – 存取 Data Catalog 中定義的資料來源以進行巨量資料處理。
+ Amazon SageMaker AI – 快速且自信地建置、訓練和部署機器學習模型。Data Catalog 的主要功能

以下是 Data Catalog 的關鍵層面。

中繼資料儲存庫  
 Data Catalog 可作為中央中繼資料儲存庫，儲存資料來源位置、結構描述和屬性的相關資訊。此中繼資料會組織成資料庫和資料表，類似於傳統的關聯式資料庫目錄。

自動資料探索能力  
 AWS Glue 編目程式可以自動探索和編目新的或更新的資料來源，減少手動中繼資料管理的開銷，並確保 Data Catalog 保持最新狀態。透過編目資料來源，Data Catalog 可讓使用者和應用程式更輕鬆地探索和了解組織內可用的資料資產，進而提升資料重複使用和協作。  
Data Catalog 支援各種資料來源，包括 Amazon S3、Amazon RDS、Amazon Redshift、Apache Hive 等。它可以使用 AWS Glue 編目程式自動推斷和存放來自這些來源的中繼資料。  
如需詳細資訊，請參閱 [使用編目程式填入 Data Catalog](add-crawler.md)。

結構描述管理  
Data Catalog 會自動擷取和管理資料來源的結構描述，包括結構描述推論、演進和版本控制。您可以使用 AWS Glue ETL 任務更新 Data Catalog 中的結構描述和分割區。

資料表最佳化  
為了獲得 Amazon Athena 和 Amazon EMR 等 AWS 分析服務以及 AWS Glue ETL 任務的更佳讀取效能，Data Catalog 為 Data Catalog 中的 Iceberg 資料表提供受管壓縮 （將小型 Amazon S3 物件壓縮為較大物件的程序）。您可以使用 AWS Glue 主控台 AWS CLI、 AWS Lake Formation 主控台或 AWS API 來啟用或停用 Data Catalog 中個別 Iceberg 資料表的壓縮。  
如需詳細資訊，請參閱[最佳化處理 Iceberg 資料表](table-optimizers.md)。

資料欄統計資料  
 您可以計算 Parquet、ORC、JSON、ION、CSV 及 XML 等資料格式之 Data Catalog 資料表的資料欄層級統計資料，無需設定其他資料管道。資料欄統計資料可協助您透過深入了解資料欄內的值，了解資料設定檔。Data Catalog 支援產生資料欄值的統計資料 (例如，最小值、最大值、總 Null 值、總相異值、值平均長度及 true 值出現總數)。  
如需詳細資訊，請參閱[使用資料欄統計資料最佳化查詢效能](column-statistics.md)。

資料沿襲  
Data Catalog 會維護對資料執行的轉換和操作記錄，並提供資料沿襲資訊。此沿襲資訊對於稽核、合規和了解資料的來源來說特別有價值。

與其他 AWS 服務的整合  
Data Catalog 與其他 AWS 服務無縫整合 AWS Lake Formation，例如 Amazon Athena、Amazon Redshift Spectrum 和 Amazon EMR。此整合可讓您使用單一、一致的中繼資料層級，查詢和分析各種資料存放區中的資料。

安全性和存取控制  
AWS Glue 與 整合 AWS Lake Formation 以支援 Data Catalog 資源的精細存取控制，可讓您根據組織的政策和需求管理對資料資產的許可和安全存取。 與 AWS Key Management Service (AWS KMS) AWS Glue 整合，以加密存放在 Data Catalog 中的中繼資料。

具體化視觀表   
Data Catalog 支援 Apache Iceberg 具體化視觀表，這些視觀表是存放 SQL 查詢預先計算結果的受管資料表，並在基礎來源資料變更時自動重新整理。具體化視觀表可簡化資料轉換管道，並透過消除冗餘運算來加速查詢效能。  
您可以使用 Glue AWS 5.1 版和更新版本中的 Apache Spark SQL、Amazon EMR 7.12.0 版和更新版本，以及 Amazon Athena 來建立具體化視觀表。Data Catalog 會自動監控來源 Apache Iceberg 資料表，並使用受管運算基礎設施重新整理具體化視觀表。Glue、Amazon EMR 和 Amazon Athena AWS 的 Spark 引擎可以在提供更佳效能時自動重寫查詢，以使用具體化視觀表。  
具體化視觀表會以 Apache Iceberg 資料表的形式存放在 Amazon S3 Tables 儲存貯體中，或存放在您帳戶中的 Amazon S3 一般用途儲存貯體中，使其可從多個查詢引擎存取。Data Catalog 會管理具體化檢視生命週期的所有層面，包括自動重新整理排程、增量更新和中繼資料管理。  
如需詳細資訊，請參閱使用具體化視觀表搭配 AWS Glue 和使用具體化視觀表搭配 Amazon EMR。

**Topics**
+ [填入 AWS Glue 資料目錄](populate-catalog-methods.md)
+ [填入並管理交易資料表](populate-otf.md)
+ [管理 Data Catalog](manage-catalog.md)
+ [存取 Data Catalog](access_catalog.md)
+ [AWS Glue Data Catalog 最佳實務](best-practice-catalog.md)
+ [在 中監控 Data Catalog 用量指標 Amazon CloudWatch](data-catalog-cloudwatch-metrics.md)
+ [AWS Glue 結構描述登錄檔](schema-registry.md)