手動定義中繼資料
AWS Glue Data Catalog 是一個集中式儲存庫,可儲存資料來源和資料集的相關中繼資料。雖然編目程式可以為支援的資料來源的中繼資料進行自動爬取和填入,但在某些情況下,可能需要在 Data Catalog 中手動定義中繼資料:
不支援的資料格式 – 如果您擁有編目程式不支援的資料來源,則需要在 Data Catalog 中手動定義這些資料來源的中繼資料。
自訂中繼資料需求 – AWS Glue 編目程式 會根據預先定義的規則和慣例來推斷中繼資料。如果您擁有 AWS Glue 編目程式 推斷的中繼資料未涵蓋的特定中繼資料需求,可以手動定義中繼資料以符合您的需求
資料治理和標準化 – 在某些情況下,基於資料治理、合規或安全原因,您可能希望對中繼資料定義有更多控制權。手動定義中繼資料可確保中繼資料符合組織的標準和政策。
-
未來資料擷取的預留位置 – 如果您擁有無法立即使用或存取的資料來源,則可以建立空白結構描述資料表作為預留位置。資料來源變為可用之後,就可以將實際資料填入資料表,同時維持預先定義的結構。
若要手動定義中繼資料,可以使用 AWS Glue 主控台、Lake Formation 主控台、AWS Glue API 或 AWS Command Line Interface (AWS CLI)。您可以建立資料庫、資料表和分區,並指定中繼資料屬性,例如資料欄名稱、資料類型、說明和其他屬性。