

# Búsqueda de coincidencias progresivas
<a name="machine-learning-incremental-matches"></a>

La característica de búsqueda de coincidencias permite identificar registros duplicados o coincidentes en el conjunto de datos, incluso cuando los registros no tienen un identificador único común y no coinciden exactamente los campos. La versión inicial de búsqueda de coincidencia transforma los registros coincidentes identificados dentro de un único conjunto de datos. Cuando agregó datos nuevos al conjunto de datos, tuvo que fusionarlo con el conjunto de datos limpio existente y volver a ejecutar la coincidencia con el conjunto de datos fusionado completo.

La característica de coincidencia progresiva facilita la coincidencia con los registros progresivos con respecto a los conjuntos de datos coincidentes existentes. Suponga que desea asociar los datos de los clientes potenciales con los conjuntos de datos de clientes existentes. La capacidad de coincidencia progresiva proporciona la flexibilidad de asociar cientos de miles de nuevos clientes potenciales con una base de datos existente de clientes potenciales y clientes existentes mediante la fusión de los resultados en una única base de datos o tabla. Al hacer coincidir solo entre los conjuntos de datos nuevos y existentes, la optimización de búsqueda de coincidencias progresivas reduce el tiempo de cálculo, lo que también reduce los costos.

La utilización de la coincidencia progresiva es similar a la búsqueda de coincidencias tal como se describe en [Tutorial: creación de una transformación de machine learning con AWS Glue](machine-learning-transform-tutorial.md). En este tema, se identifican únicamente las diferencias con la coincidencia progresiva.

Para obtener más información, consulte la publicación del blog de [Coincidencia progresiva de datos](https://aws.amazon.com/blogs/big-data/incremental-data-matching-using-aws-lake-formation/).

## Ejecución de un trabajo de coincidencia progresiva
<a name="machine-learning-incremental-matches-add"></a>

Para el siguiente procedimiento, suponga lo siguiente: 
+ Se ha rastreado el conjunto de datos existente y los resultados se han pasado a la tabla *first\$1records*. El conjunto de datos de *first\$1records* debe ser un conjunto de datos coincidente, o bien el resultado del trabajo coincidente.
+ Se ha creado y entrenado una transformación de FindMatches con AWS Glue versión 2.0. Esta es la única versión de AWS Glue que soporta coincidencias progresivas.
+ El lenguaje de ETL es Scala. Tenga en cuenta que también se soporta Python.
+ El modelo ya generado se denomina `demo-xform`.

1. Rastree el conjunto de datos progresivo hasta la tabla *second\$1records*.

1. En el panel de navegación de la consola de AWS Glue, seleccione **Jobs** (Trabajos).

1. Elija **Add job** (Añadir trabajo) y siga los pasos en el asistente para crear un trabajo de ETL Spark con un script generado. Elija los siguientes valores de propiedad para su transformación:

   1. Para **Name (Nombre)**, elija **demo-etl**.

   1. En **IAM role (Rol de IAM)**, elija un rol de IAM con permiso para los datos de origen de Amazon S3, el archivo de etiquetado y las [operaciones de la API de AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/create-an-iam-role.html).

   1. En **ETL language** (Lenguaje de ETL), elija **Scala**.

   1. En **Script file name (Nombre de archivo de script)**, elija **demo-etl**. Este es el nombre de archivo del script de Scala.

   1. Para **Data source (Origen de datos)**, elija **first\$1records**. El origen de datos que elija debe coincidir con el esquema de origen de datos de transformación de machine learning.

   1. En **Transform type** (Tipo de transformación), elija **Find matching records** (Buscar registros de coincidencia) para crear un trabajo mediante una transformación de machine learning.

   1. Seleccione la opción de coincidencia progresiva y para **Data source (Origen de datos)**, seleccione la tabla denominada **second\$1records**.

   1. En **Transform (Transformación)**, elija **demo-xform**, la transformación de machine learning utilizada por el trabajo.

   1. Elija **Create tables in your data target (Crear tablas en el destino de datos)** o **Use tables in the data catalog and update your data target (Utilizar tablas en el Catálogo de datos y actualizar el destino de datos)**.

1. Elija **Save job and edit script** (Guardar trabajo y editar script) para mostrar la página del editor de scripts.

1. Elija **Run job** (Ejecutar trabajo) para iniciar la ejecución de trabajo.