

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 排程增量網路爬取以新增分區
<a name="incremental-crawls"></a>

您可以設定 AWS Glue 編目程式 執行增量爬蟲程式，只將新的分割區新增至資料表結構描述。編目程式第一次執行時，會執行完整的網路爬取來處理整個資料來源，以記錄完整的結構描述和 AWS Glue Data Catalog中的所有現有分區。

初始的完整網路爬取之後的後續網路爬取將遞增，編目程式會在其中識別並僅新增自上次網路爬取以來引入的新分區。這種方法會導致網路爬取時間更快，因為編目程式不再需要為每個執行處理整個資料來源，而僅專注於新分區。

**注意**  
增量網路爬取不會偵測現有分區的修改或刪除。此組態最適合具有穩定結構描述的資料來源。如果發生一次性主要結構描述變更，建議暫時設定編目程式來執行完整的網路爬取，以準確擷取新的結構描述，然後切換回增量網路爬取模式。

下圖顯示啟用增量網路爬取設定後，編目程式將僅偵測最新添加的資料夾 (month=March)，並將其新增至目錄。

![\[下圖顯示已新增 3 月的檔案。\]](http://docs.aws.amazon.com/zh_tw/glue/latest/dg/images/crawlers-s3-folders-new.png)


請依照下列步驟來更新編目程式，以執行增量網路爬取：

------
#### [ AWS 管理主控台 ]

1. 登入 AWS 管理主控台 並在 https：//[https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/) 開啟 AWS Glue 主控台。

1. 選擇 **Data Catalog** 下的**編目程式**。

1. 選擇要設定為增量網路爬取的編目程式。

1. 選擇**編輯**。

1. 選擇**步驟 2。選擇資料來源和分類器**。

1. 選擇要進行增量網路爬取的資料來源。

1. 選擇**編輯**。

1. 在**後續編目程式執行**下選擇**僅網路爬取新的子資料夾**。

1. 選擇**更新**。

若要為編目程式建立排程，請參閱 [排程爬蟲程式](schedule-crawler.md)。

------
#### [ AWS CLI ]

```
aws glue update-crawler \
 --name myCrawler \
 --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \
 --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
```

------

**備註和限制**  
開啟此選項時，您無法在編輯爬蟲程式程式時變更 Amazon S3 目標資料存放區。此選項會影響特定爬蟲程式組態設定。開啟時，它會強制爬蟲程式的更新行為和刪除行為至 `LOG`。這表示：
+ 若其發現結構描述不相容的物件，則爬蟲程式將不會在 Data Catalog 中新增物件，並會將此詳細資料新增為 CloudWatch Logs 中的日誌。
+ 其將不會在 Data Catalog 中更新已刪除的物件。