

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Trovare corrispondenze incrementali
<a name="machine-learning-incremental-matches"></a>

La caratteristica FindMatches permette di identificare registri duplicati o corrispondenti nel set di dati, anche quando i registri non dispongono di un identificatore univoco comune e nessun campo corrisponde esattamente. La versione iniziale di Trova corrispondenze trasforma i registri corrispondenti identificati all'interno di un singolo set di dati. Quando si aggiungono nuovi dati al set, avrai già dovuto unirli con il set di dati pulito esistente e rieseguire la corrispondenza con il set di dati unito completo.

La funzione di corrispondenza incrementale semplifica la corrispondenza con i registri incrementali rispetto ai set di dati corrispondenti esistenti. Supponiamo che desideri abbinare i dati dei potenziali clienti con i set di dati esistenti dei clienti. La funzionalità di corrispondenza incrementale offre la flessibilità necessaria per abbinare centinaia di migliaia di nuovi prospect con un database esistente di prospect e potenziali clienti combinando i risultati in un unico database o tabella. Corrispondendo solo tra i set di dati nuovi ed esistenti, l'ottimizzazione delle corrispondenze incrementali di ricerca riduce i tempi di calcolo, riducendo anche i costi.

L'uso della corrispondenza incrementale è simile a Trova corrispondenze come descritto in [Tutorial: creazione di una trasformazione dell'apprendimento automatico con AWS Glue](machine-learning-transform-tutorial.md). Questo argomento identifica solo le differenze con la corrispondenza incrementale.

Per ulteriori informazioni, leggi il post del blog su [Corrispondenza incrementale dei dati](https://aws.amazon.com/blogs/big-data/incremental-data-matching-using-aws-lake-formation/).

## Esecuzione di un processo di corrispondenza incrementale
<a name="machine-learning-incremental-matches-add"></a>

Per la seguente procedura, supponiamo quanto segue: 
+ Hai eseguito il crawling del set di dati esistente nella tabella *first\$1records*. Il set di dati *first\$1records* deve essere un set di dati corrispondente o l'output del processo corrispondente.
+ Hai creato e addestrato una trasformazione Find matches (Trova corrispondenze) con AWS Glue Glue versione 2.0. Questa è l'unica versione di AWS Glue che supporti le corrispondenze incrementali.
+ Il linguaggio ETL è Scala. Si noti che anche Python è supportato.
+ Il modello già generato viene chiamato `demo-xform`.

1. Esegui la scansione del set di dati incrementale nella tabella *second\$1records*.

1. Nel riquadro di navigazione della console di AWS Glue, scegliere **Jobs (Processi)**.

1. Scegliere **Add job (Aggiungi processo)** e seguire la procedura guidata per creare un processo ETL Spark con uno script generato. Per le proprietà della trasformazione scegliere i seguenti valori:

   1. Per **Name** (Nome), scegli **demo-etl**.

   1. Alla voce **IAM role (Ruolo IAM)**, scegli un ruolo IAM che disponga delle autorizzazioni per accedere ai dati di origine su Amazon S3, ai file di etichettatura dei dati e alle [operazioni API di AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/create-an-iam-role.html).

   1. Alla voce **ETL language** (Linguaggio ETL) scegli **Scala**.

   1. Come **Script file name (Nome del file di script)**, scegli **demo-etl**. Questo è il nome del file dello script Scala.

   1. Per **Data source (Origine dati)**, scegli **first\$1records**. L'origine dati scelta deve corrispondere allo schema dell'origine dati della trasformazione basata su machine learning.

   1. Alla voce **Transform type (Tipo di trasformazione)**, scegliere **Find matching records (Individuazione record corrispondenti)** per creare un processo che utilizza una trasformazione basata su machine learning.

   1. Seleziona l'opzione di corrispondenza incrementale e per **Data source** (Origine dati) seleziona la tabella denominata **second\$1records**.

   1. Alla voce **Transform (Trasformazione)**, scegli **demo-xform**, la trasformazione basata su machine learning utilizzata del processo.

   1. Scegli **Create tables in your data target** (Crea tabelle nella tua destinazione di dati) o **Use tables in the catalogo dati and update your data target** (Usa tabelle nel catalogo dati e aggiorna la destinazione dati).

1. Scegliere **Save job and edit script (Salva processo e modifica script)** per visualizzare la pagina dell'editor dello script.

1. Scegliere **Run job (Esegui processo)** per avviare l'esecuzione del processo.