自訂編目程式行為 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

自訂編目程式行為

設定 AWS Glue 編目程式 時,有幾個選項可定義編目程式的行為。

  • 增量編目程式 – 您可以設定編目程式執行增量編目程式,以僅將新的分區新增至資料表結構描述。

  • 分區索引 – 依預設,編目程式會建立 Amazon S3 和 Delta Lake 目標的分區索引,以提供特定分區的有效查詢。

  • 使用 Amazon S3 事件加速網路爬取時間– 您可以將編目程式設定為使用 Amazon S3 事件識別兩個編目之間的變更,方法是列出觸發事件的子資料夾中的所有檔案,而不是列出完整的 Amazon S3 或 Data Catalog 目標。

  • 處理結構描述變更 – 您可以防止編目程式對現有的結構描述進行任何結構描述變更。您可以使用 AWS 管理主控台 或 AWS Glue API 設定您的搜尋器如何處理特定類型的變更。

  • 多個 Amazon S3 路徑的單一結構描述 – 如果資料相容,您可以設定編目程式為每個 S3 路徑建立單一結構描述。

  • 資料表位置和分區層級 – 資料表層級編目程式選項讓您可以靈活地告訴編目程式資料表的位置,以及建立分區的方式。

  • 資料表閾值 – 您可以指定資料表閾值,以指定編目程式可建立的資料表數目上限。

  • AWS Lake Formation 憑證 – 您可以將編目程式設定為使用 Lake Formation 憑證,來存取 Amazon S3 資料存放區,或在相同 AWS 帳戶 或其他 AWS 帳戶 中具有基礎 Amazon S3 位置的 Data Catalog 資料表。

如需使用 AWS Glue 主控台新增爬蟲程式的詳細資訊,請參閱設定編目程式