

# Programación de rastreos progresivos para agregar nuevas particiones
<a name="incremental-crawls"></a>

Puede configurar rastreos progresivos de ejecuciones de Rastreador de AWS Glue para agregar solo particiones nuevas al esquema de la tabla. Cuando el rastreador se ejecuta por primera vez, realiza un rastreo completo para procesar todo el origen de datos y registrar el esquema completo y todas las particiones existentes en AWS Glue Data Catalog.

Los rastreos posteriores al rastreo completo inicial serán progresivos, en los que el rastreador identificará y agregará solo las particiones nuevas que se hayan introducido desde el rastreo anterior. Este enfoque se traduce en tiempos de rastreo más rápidos, ya que el rastreador ya no necesita procesar todo el origen de datos para cada ejecución, sino que se centra únicamente en las nuevas particiones. 

**nota**  
Los rastreos progresivos no detectan las modificaciones o eliminaciones de las particiones existentes. Esta configuración es la más adecuada para orígenes de datos con un esquema estable. Si se produce un cambio importante en el esquema una sola vez, se recomienda configurar temporalmente el rastreador para que realice un rastreo completo a fin de capturar el nuevo esquema con precisión y, a continuación, volver al modo de rastreo progresivo. 

En el siguiente diagrama se muestra que, con la configuración de rastreo gradual habilitada, el rastreador solo detectará y agregará al catálogo la carpeta recién agregada, month=March.

![\[El siguiente diagrama muestra que se han agregado archivos para el mes de marzo.\]](http://docs.aws.amazon.com/es_es/glue/latest/dg/images/crawlers-s3-folders-new.png)


Siga estos pasos para actualizar su rastreador y realizar rastreos graduales:

------
#### [ Consola de administración de AWS ]

1. Inicie sesión en la Consola de administración de AWS y abra la consola de AWS Glue en [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Elija **Rastreadores** en el **Catálogo de datos**.

1. Elija el rastreador que desea configurar para rastrear progresivamente.

1. Seleccione **Editar**.

1. Elija **Paso 2. Elija orígenes de datos y clasificadores**.

1. Elija el origen de datos que desea rastrear progresivamente. 

1. Seleccione **Editar**.

1. Seleccione **Rastrear subcarpetas nuevas únicamente** en las **Siguientes ejecuciones del rastreador**.

1. Elija **Actualizar**.

Para crear una programación para un rastreador, consulte [Programación de un rastreador](schedule-crawler.md).

------
#### [ AWS CLI ]

```
aws glue update-crawler \
 --name myCrawler \
 --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \
 --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
```

------

**Notas y restricciones**  
Cuando esta opción está activada, no puede cambiar los almacenes de datos de destino de Amazon S3 al editar el rastreador. Esta opción afecta a determinados valores de configuración del rastreador. Cuando está activada, fuerza el comportamiento de actualización y el comportamiento de eliminación del rastreador a `LOG`. Esto significa que:
+ Si descubre objetos en los que los esquemas no son compatibles, el rastreador no agregará los objetos en el Catálogo de datos y agregará este detalle como un registro en CloudWatch Logs.
+ No actualizará los objetos eliminados en el Catálogo de datos.