

# 新しいパーティションを追加するための増分クロールのスケジューリング
<a name="incremental-crawls"></a>

テーブルスキーマに新しいパーティションのみを追加する増分クロールを実行するように AWS Glue クローラー を設定できます。クローラーは、初回実行時にデータソース全体を処理するフルクロールを実行し、完全なスキーマと既存のすべてのパーティションを AWS Glue Data Catalog に記録します。

最初のフルクロールの後のクロールは増分となり、クローラーは前回のクロール以降に導入された新しいパーティションのみを識別して追加します。このアプローチにより、クローラーは実行ごとにデータソース全体を処理する必要がなくなり、代わりに新しいパーティションにだけ焦点を当てるため、クロール時間が短縮されます。

**注記**  
増分クロールは、既存のパーティションの変更や削除を検出しません。この設定は、安定したスキーマを持つデータソースに最適です。大規模なスキーマ変更が発生した場合は、新しいスキーマを正確に取得するために、一時的にクローラーがフルクロールを実行するように設定し、その後増分クローリングモードに戻すことをお勧めします。

次の図は、増分クロール設定を有効にすると、クローラーが新しく追加されたフォルダ、month=March のみを検出してカタログに追加する状況を示しています。

![\[次の図は、3 月のファイルが追加されていることを示しています。\]](http://docs.aws.amazon.com/ja_jp/glue/latest/dg/images/crawlers-s3-folders-new.png)


クローラーを更新して増分クロールを実行するには、次の手順に従います。

------
#### [ AWS マネジメントコンソール ]

1. AWS マネジメントコンソールにサインインし、AWS Glue コンソール ([https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/)) を開きます。

1. **[Data Catalog]** で **[クローラー]** を選択します。

1. 増分的にクロールするように設定するクローラーを選択します。

1. **[編集]** を選択します。

1. **[ステップ 2] を選択します。データソースと分類子を選択します**。

1. 増分的にクロールするデータソースを選択します。

1. **[編集]** を選択します。

1. **[それ以降のクローラー実行]** で、**[新しいサブフォルダのみをクローリング]** を選択します。

1. **[更新]** を選択します。

クローラーのスケジュールを作成するには、「[クローラのスケジュール](schedule-crawler.md)」を参照してください。

------
#### [ AWS CLI ]

```
aws glue update-crawler \
 --name myCrawler \
 --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \
 --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
```

------

**注意と制限**  
このオプションをオンにすると、クローラーの編集時に Amazon S3 ターゲットデータストアを変更できなくなります。このオプションは、ある特定のクローラー設定に影響します。オンにすると、クローラーの更新動作と削除動作が `LOG` になります。これにより、以下のように処理されます。
+ スキーマに互換性がないオブジェクトを検出した場合、クローラーはデータカタログにオブジェクトを追加せず、この詳細を CloudWatch Logs のログとして追加します。
+ データカタログで削除されたオブジェクトは更新されません。