中的資料探索和編目 AWS Glue

AWS Glue Data Catalog 是集中式儲存庫，可存放組織資料集的相關中繼資料。其可作為您資料來源之位置、結構描述及執行時期指標的索引。中繼資料儲存在中繼資料資料表中，其中每個資料表代表單一資料存放區。

您可以使用編目程式填入 Data Catalog，該編目程式會自動掃描資料來源並擷取中繼資料。編目程式可以連接至 AWS的內部 (AWS型) 和外部的資料來源。

如需有關受支援事件來源的詳細資訊，請參閱支援的網路爬取資料來源。

您也可以根據特定需求定義資料表結構、結構描述和分區結構，在 Data Catalog 中手動建立資料表。

如需手動建立中繼資料表的詳細資訊，請參閱手動定義中繼資料。

您可以使用 Data Catalog 中的資訊來建立和監控 ETL 任務。Data Catalog 與其他 AWS 分析服務整合，提供資料來源的統一檢視，讓您更輕鬆地管理和分析資料。

Amazon Athena – 使用 SQL 在 Data Catalog 中儲存和查詢 Amazon S3 資料的資料表中繼資料。
AWS Lake Formation – 集中定義和管理精細的資料存取政策和稽核資料存取。
Amazon EMR – 存取 Data Catalog 中定義的資料來源以進行巨量資料處理。
Amazon SageMaker AI – 快速且自信地建置、訓練和部署機器學習模型。

Data Catalog 的主要功能

以下是 Data Catalog 的關鍵層面。

中繼資料儲存庫

Data Catalog 可作為中央中繼資料儲存庫，儲存資料來源位置、結構描述和屬性的相關資訊。此中繼資料會組織成資料庫和資料表，類似於傳統的關聯式資料庫目錄。

自動資料探索能力

AWS Glue 編目程式可以自動探索和編目新的或更新的資料來源，減少手動中繼資料管理的開銷，並確保 Data Catalog 保持最新狀態。透過編目資料來源，Data Catalog 可讓使用者和應用程式更輕鬆地探索和了解組織內可用的資料資產，進而提升資料重複使用和協作。

Data Catalog 支援各種資料來源，包括 Amazon S3、Amazon RDS、Amazon Redshift、Apache Hive 等。它可以使用 AWS Glue 編目程式自動推斷和儲存來自這些來源的中繼資料。

如需詳細資訊，請參閱使用編目程式填入 Data Catalog。

結構描述管理

Data Catalog 會自動擷取和管理資料來源的結構描述，包括結構描述推論、演進和版本控制。您可以使用 AWS Glue ETL 任務更新 Data Catalog 中的結構描述和分割區。

資料表最佳化

為了獲得 Amazon Athena 和 Amazon EMR 等 AWS 分析服務以及 AWS Glue ETL 任務的更佳讀取效能，Data Catalog 為 Data Catalog 中的 Iceberg 資料表提供受管壓縮（將小型 Amazon S3 物件壓縮為較大物件的程序）。您可以使用 AWS Glue 主控台 AWS CLI、 AWS Lake Formation 主控台或 AWS API 來啟用或停用 Data Catalog 中個別 Iceberg 資料表的壓縮。

如需詳細資訊，請參閱最佳化處理 Iceberg 資料表。

資料欄統計資料

您可以計算 Parquet、ORC、JSON、ION、CSV 及 XML 等資料格式之 Data Catalog 資料表的資料欄層級統計資料，無需設定其他資料管道。資料欄統計資料可協助您透過深入了解資料欄內的值，了解資料設定檔。Data Catalog 支援產生資料欄值的統計資料 (例如，最小值、最大值、總 Null 值、總相異值、值平均長度及 true 值出現總數)。

如需詳細資訊，請參閱使用資料欄統計資料最佳化查詢效能。

資料沿襲

Data Catalog 會維護對資料執行的轉換和操作記錄，並提供資料沿襲資訊。此沿襲資訊對於稽核、合規和了解資料的來源來說特別有價值。

與其他 AWS 服務的整合

Data Catalog 與其他 AWS 服務無縫整合 AWS Lake Formation，例如 Amazon Athena、Amazon Redshift Spectrum 和 Amazon EMR。此整合可讓您使用單一、一致的中繼資料層級，查詢和分析各種資料存放區中的資料。

安全性和存取控制

AWS Glue 與整合 AWS Lake Formation 以支援 Data Catalog 資源的精細存取控制，可讓您根據組織的政策和需求管理對資料資產的許可和安全存取。與 AWS Key Management Service (AWS KMS) AWS Glue 整合，以加密存放在 Data Catalog 中的中繼資料。

商業內容和語意搜尋（預覽）

使用詞彙表字詞、自訂中繼資料欄位和技能資產來豐富 Data Catalog 資產，讓資料更易於探索。除了確切關鍵字比對之外，使用 AWS Glue 搜尋 API 依語意意義尋找資產。AI 代理器可以使用技能資產來擷取網域內容，例如查詢模式、用量規則和資料定義。

如需詳細資訊，請參閱新增業務內容。

具體化視觀表

Data Catalog 支援 Apache Iceberg 具體化視觀表，這些視觀表是存放 SQL 查詢預先計算結果的受管資料表，並在基礎來源資料變更時自動重新整理。具體化視觀表可簡化資料轉換管道，並透過消除備援運算來加速查詢效能。

您可以在 Glue AWS 5.1 版和更新版本、Amazon EMR 7.12.0 版和更新版本，以及 Amazon Athena 中使用 Apache Spark SQL 建立具體化視觀表。Data Catalog 會自動監控來源 Apache Iceberg 資料表，並使用受管運算基礎設施重新整理具體化視觀表。Glue、Amazon EMR 和 Amazon Athena AWS 的 Spark 引擎可以在提供更佳效能時自動重寫查詢，以使用具體化視觀表。

具體化視觀表會以 Apache Iceberg 資料表的形式存放在 Amazon S3 Tables 儲存貯體中，或存放在您帳戶中的 Amazon S3 一般用途儲存貯體中，使其可從多個查詢引擎存取。Data Catalog 會管理具體化檢視生命週期的所有層面，包括自動重新整理排程、增量更新和中繼資料管理。

如需詳細資訊，請參閱搭配 Glue AWS 使用具體化視觀表和搭配 Amazon EMR 使用具體化視觀表。

主題

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

專為開發設定聯網

填入 Data Catalog