排程增量網路爬取以新增分區
可設定 AWS Glue 編目程式 執行增量網路爬取,以僅將新的分區新增至資料表結構描述。編目程式第一次執行時,會執行完整的網路爬取來處理整個資料來源,以記錄完整的結構描述和 AWS Glue Data Catalog 中的所有現有分區。
初始的完整網路爬取之後的後續網路爬取將遞增,編目程式會在其中識別並僅新增自上次網路爬取以來引入的新分區。這種方法會導致網路爬取時間更快,因為編目程式不再需要為每個執行處理整個資料來源,而僅專注於新分區。
注意
增量網路爬取不會偵測現有分區的修改或刪除。此組態最適合具有穩定結構描述的資料來源。如果發生一次性主要結構描述變更,建議暫時設定編目程式來執行完整的網路爬取,以準確擷取新的結構描述,然後切換回增量網路爬取模式。
下圖顯示啟用增量網路爬取設定後,編目程式將僅偵測最新添加的資料夾 (month=March),並將其新增至型錄。
請依照下列步驟來更新編目程式,以執行增量網路爬取:
備註和限制
開啟此選項時,您無法在編輯爬蟲程式程式時變更 Amazon S3 目標資料存放區。此選項會影響特定爬蟲程式組態設定。開啟時,它會強制爬蟲程式的更新行為和刪除行為至 LOG。這表示:
-
若其發現結構描述不相容的物件,則爬蟲程式將不會在 Data Catalog 中新增物件,並會將此詳細資料新增為 CloudWatch Logs 中的日誌。
-
其將不會在 Data Catalog 中更新已刪除的物件。