排程增量網路爬取以新增分區 - AWS Glue

排程增量網路爬取以新增分區

可設定 AWS Glue 編目程式 執行增量網路爬取,以僅將新的分區新增至資料表結構描述。編目程式第一次執行時,會執行完整的網路爬取來處理整個資料來源,以記錄完整的結構描述和 AWS Glue Data Catalog 中的所有現有分區。

初始的完整網路爬取之後的後續網路爬取將遞增,編目程式會在其中識別並僅新增自上次網路爬取以來引入的新分區。這種方法會導致網路爬取時間更快,因為編目程式不再需要為每個執行處理整個資料來源,而僅專注於新分區。

注意

增量網路爬取不會偵測現有分區的修改或刪除。此組態最適合具有穩定結構描述的資料來源。如果發生一次性主要結構描述變更,建議暫時設定編目程式來執行完整的網路爬取,以準確擷取新的結構描述,然後切換回增量網路爬取模式。

下圖顯示啟用增量網路爬取設定後,編目程式將僅偵測最新添加的資料夾 (month=March),並將其新增至型錄。

下圖顯示已新增 3 月的檔案。

請依照下列步驟來更新編目程式,以執行增量網路爬取:

AWS Management Console
  1. 登入 AWS Management Console,並前往 https://console.aws.amazon.com/glue/ 開啟 AWS Glue 主控台。

  2. 選擇 Data Catalog 下的編目程式

  3. 選擇要設定為增量網路爬取的編目程式。

  4. 選擇編輯

  5. 選擇步驟 2。選擇資料來源和分類器

  6. 選擇要進行增量網路爬取的資料來源。

  7. 選擇編輯

  8. 後續編目程式執行下選擇僅網路爬取新的子資料夾

  9. 選擇更新

若要為編目程式建立排程,請參閱 排程爬蟲程式

AWS CLI
aws glue update-crawler \ --name myCrawler \ --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \ --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
備註和限制

開啟此選項時,您無法在編輯爬蟲程式程式時變更 Amazon S3 目標資料存放區。此選項會影響特定爬蟲程式組態設定。開啟時,它會強制爬蟲程式的更新行為和刪除行為至 LOG。這表示:

  • 若其發現結構描述不相容的物件,則爬蟲程式將不會在 Data Catalog 中新增物件,並會將此詳細資料新增為 CloudWatch Logs 中的日誌。

  • 其將不會在 Data Catalog 中更新已刪除的物件。